在机器剩余35g内存和20g显存的情况下，无法完成TensorRT-LLM build #768

smartmark-pro · 2024-01-19T09:23:41Z

smartmark-pro
Jan 19, 2024

python3 build.py -m chatglm3_6b --output_dir trt_engines/chatglm3_6b/fp16/1-gpu

这是切到显卡上加载发生的，默认在内存上加上只能到第四个部分，同样发生了killed

是否有人知道应该怎么办，或者机器大概什么配置可以完成这个步骤

Answered by zRzRzRzRzRzRzR

你的内存不够啊，内存需要能够执行完整的一个fp32的模型推理你设定的token长度好像，也就是48G？

smartmark-pro · 2024-01-22T02:24:09Z

目前猜测必须要

这些显卡和较大的内存才有可能成功，消费级显卡都不行

0 replies

zRzRzRzRzRzRzR · 2024-01-28T03:05:49Z

你的内存不够啊，内存需要能够执行完整的一个fp32的模型推理你设定的token长度好像，也就是48G？

0 replies