Replies: 1 comment
-
遇到同样的问题,6b-base可以lora sft, 6b则会CUDA out of memory. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
在相同的设备,相同的lora参数下,
chatglm3-6b模型在训练过程中报内存溢出,但是其他模型(chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k)并不会,都能够正常训练。
甚至chatglm3-6b模型降到更低的参数,也依旧会报内存溢出。
chatglm3-6b模型为什么会需要更大的算力?不是chatglm3-6b-128k需要的算力最大吗?
这是chatglm3-6b训练时候的参数情况,参数调到很低(只有487,424)。
出现的内存溢出情况如下
而对于chatglm3-6b-base模型,能够正常运行,训练情况如下,数据量和参数都提升了,也正常运行。
Beta Was this translation helpful? Give feedback.
All reactions