多卡推理不正常 #310

0000sir · 2023-11-05T01:37:31Z

0000sir
Nov 5, 2023

3060 12G双显卡，在修改代码后，运行cli_demo.py对话时提示 "ValueError: not enough values to unpack"

tokenizer = AutoTokenizer.from_pretrained("/pretrained/chatglm3-6b", trust_remote_code=True)
# model = AutoModel.from_pretrained("/pretrained/chatglm3-6b", trust_remote_code=True).cuda()
# 多显卡支持，使用下面两行代替上面一行，将num_gpus改为你实际的显卡数量
from utils import load_model_on_gpus
model = load_model_on_gpus("/pretrained/chatglm3-6b", num_gpus=2)
model = model.eval()

以下是错误内容：

ChatGLM：Traceback (most recent call last):
  File "/src/ChatGLM3/cli_demo.py", line 61, in <module>
    main()
  File "/src/ChatGLM3/cli_demo.py", line 48, in main
    for response, history, past_key_values in model.stream_chat(tokenizer, query, history=history,
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/_contextlib.py", line 35, in generator_context
    response = gen.send(None)
  File "/root/.cache/huggingface/modules/transformers_modules/chatglm3-6b/modeling_chatglm.py", line 1077, in stream_chat
    response, new_history = self.process_response(response, history)
  File "/root/.cache/huggingface/modules/transformers_modules/chatglm3-6b/modeling_chatglm.py", line 1003, in process_response
    metadata, content = response.split("\n", maxsplit=1)
ValueError: not enough values to unpack (expected 2, got 1)

测试在Tesla P100上双卡运行没有问题

3060驱动版本 545.23.06
P100区动版本 530.30.02

报错的第48行是这个循环的开始，应该是model.stream_chat调用失败

for response, history, past_key_values in model.stream_chat(tokenizer, query, history=history,
                                                                    past_key_values=past_key_values,
                                                                    return_past_key_values=True):
            if stop_stream:
                stop_stream = False
                break
            else:
                print(response[current_length:], end="", flush=True)
                current_length = len(response)

请问这可能是什么原因，如何修复

Btlmd · 2023-11-05T09:09:55Z

Btlmd
Nov 5, 2023
Maintainer

这很可能是模型生成了工具调用或代码执行等包含 metadata 的对话内容。目前 tokenizer 中对 process_response 的实现可能不能正确处理流式生成的、包含 metadata 的内容。

也许可以考虑运行综合 Demo ？

0 replies

0000sir · 2023-11-06T01:34:22Z

0000sir
Nov 6, 2023
Author

综合demo不退出了，但是仍然没法正常对话，输出是混乱的，我往前翻了issue，有一个相同的问题 #71

之前运行cli_demo.py的时候也出现过一次

1 reply

askme-gpt Mar 6, 2024

你好，请问下这个模型怎么才能用tesla p100显卡来运行，有教程吗？我想学习下，谢谢

hiarcs · 2023-11-07T09:27:24Z

hiarcs
Nov 7, 2023

chatglm3-6b-base也有同样的问题，发生同样的位置。调整输入后故障可能消失，而且有时model.chat返回的0号元素会变成一个json对象而不是字符串。

1 reply

zRzRzRzRzRzRzR Dec 19, 2023
Maintainer

问题已经解决

Btlmd · 2023-11-08T07:18:39Z

Btlmd
Nov 8, 2023
Maintainer

对于这个出现乱码的情况，想确认一下您用的是 chatglm3-6b 还是 chatglm3-6b-base 。我在 chatglm3-6b 上未能复现这个问题；而 chatglm3-6b-base 是不支持对话的基座模型

0 replies

vcvcvnvcvcvn · 2023-11-08T07:21:46Z

vcvcvnvcvcvn
Nov 8, 2023

在模型的缓存文件中找到modeling_chatglm.py，定位到1003行，
，添加一个判断可以暂时解决这个问题

5 replies

wang-na Dec 5, 2023

这各文件中加判断后，总是被冲掉，还原成原来的脚本文件。。

FanZhang91 Apr 11, 2024

+1。这个每次调用的时候modeling_chatglm.py里之前修改的内容都会被覆盖掉，要如何解决？@zRzRzRzRzRzRzR

AHPUymhd Jun 10, 2024

+1。这个每次调用的时候modeling_chatglm.py里之前修改的内容都会被覆盖掉，要如何解决？@zRzRzRzRzRzRzR

我也是这样，请问您解决了吗

Solenyalyl Jul 16, 2024

我也是，这个该怎么处理？？？！！！

Solenyalyl Jul 17, 2024

已解决，是修改modelscope文件夹下的modeling_chatglm.py，而不是其衍生文件夹下的

0000sir · 2023-11-09T01:56:54Z

0000sir
Nov 9, 2023
Author

对于这个出现乱码的情况，想确认一下您用的是 chatglm3-6b 还是 chatglm3-6b-base 。我在 chatglm3-6b 上未能复现这个问题；而 chatglm3-6b-base 是不支持对话的基座模型

确实是chatglm3-6b，还测试了chatglm3-6b-32k，一样的现象，我先试一下上面 @vcvcvnvcvcvn 提到的方法

0 replies

vcvcvnvcvcvn · 2023-11-09T03:01:45Z

vcvcvnvcvcvn
Nov 9, 2023

@0000sir 嗯嗯，我的做法只能解决"ValueError: not enough values to unpack"的问题，关于乱码是什么情况就不知道了

0 replies

paul-yangmy · 2023-11-09T07:28:28Z

paul-yangmy
Nov 9, 2023

对于这个出现乱码的情况，想确认一下您用的是 chatglm3-6b 还是 chatglm3-6b-base 。我在 chatglm3-6b 上未能复现这个问题；而 chatglm3-6b-base 是不支持对话的基座模型

确实是chatglm3-6b，还测试了chatglm3-6b-32k，一样的现象，我先试一下上面 @vcvcvnvcvcvn 提到的方法

使用后倒是解决"ValueError: not enough values to unpack"的问题了，但有时候会出现TypeError: unhashable type: 'slice'