相同算力、参数下，为什么chatglm3-6b模型会爆内存，而chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k却能够正常训练？ #1165

Ye-XX · 2024-04-23T06:21:22Z

Ye-XX
Apr 23, 2024

在相同的设备，相同的lora参数下，
chatglm3-6b模型在训练过程中报内存溢出，但是其他模型（chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k）并不会，都能够正常训练。
甚至chatglm3-6b模型降到更低的参数，也依旧会报内存溢出。
chatglm3-6b模型为什么会需要更大的算力？不是chatglm3-6b-128k需要的算力最大吗？

这是chatglm3-6b训练时候的参数情况，参数调到很低（只有487,424）。

出现的内存溢出情况如下

而对于chatglm3-6b-base模型，能够正常运行，训练情况如下，数据量和参数都提升了，也正常运行。

mogumogu2333 · 2024-05-10T23:19:06Z

mogumogu2333
May 10, 2024

遇到同样的问题，6b-base可以lora sft, 6b则会CUDA out of memory.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

相同算力、参数下，为什么chatglm3-6b模型会爆内存，而chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k却能够正常训练？ #1165

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

相同算力、参数下，为什么chatglm3-6b模型会爆内存，而chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k却能够正常训练？ #1165

Uh oh!

Uh oh!

Ye-XX Apr 23, 2024

Replies: 1 comment

Uh oh!

mogumogu2333 May 10, 2024

Ye-XX
Apr 23, 2024

mogumogu2333
May 10, 2024