在机器剩余35g内存和20g显存的情况下, 无法完成TensorRT-LLM build #768
-
根据教程 https://github.com/THUDM/ChatGLM3/blob/main/tensorrt_llm_demo/README.md
这是切到显卡上加载发生的,默认在内存上加上只能到第四个部分, 同样发生了killed 注意到已经有人提到类似问题 是否有人知道应该怎么办, 或者机器大概什么配置可以完成这个步骤 |
Beta Was this translation helpful? Give feedback.
Answered by
zRzRzRzRzRzRzR
Jan 28, 2024
Replies: 2 comments
-
你的内存不够啊,内存需要能够执行完整的一个fp32的模型推理你设定的token长度好像,也就是48G? |
Beta Was this translation helpful? Give feedback.
0 replies
Answer selected by
zRzRzRzRzRzRzR
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
你的内存不够啊,内存需要能够执行完整的一个fp32的模型推理你设定的token长度好像,也就是48G?