Replies: 1 comment
-
遇到同样的问题,6b-base可以lora sft, 6b则会CUDA out of memory. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
在相同的设备,相同的lora参数下,

chatglm3-6b模型在训练过程中报内存溢出,但是其他模型(chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k)并不会,都能够正常训练。
甚至chatglm3-6b模型降到更低的参数,也依旧会报内存溢出。
chatglm3-6b模型为什么会需要更大的算力?不是chatglm3-6b-128k需要的算力最大吗?
这是chatglm3-6b训练时候的参数情况,参数调到很低(只有487,424)。
出现的内存溢出情况如下
而对于chatglm3-6b-base模型,能够正常运行,训练情况如下,数据量和参数都提升了,也正常运行。
Beta Was this translation helpful? Give feedback.
All reactions