相同算力、参数下，为什么chatglm3-6b模型会爆内存，而chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k却能够正常训练？ #1165

Ye-XX · 2024-04-23T06:21:22Z

Ye-XX
Apr 23, 2024

在相同的设备，相同的lora参数下，
chatglm3-6b模型在训练过程中报内存溢出，但是其他模型（chatglm3-6b-base、chatglm3-6b-32k、chatglm3-6b-128k）并不会，都能够正常训练。
甚至chatglm3-6b模型降到更低的参数，也依旧会报内存溢出。
chatglm3-6b模型为什么会需要更大的算力？不是chatglm3-6b-128k需要的算力最大吗？