Replies: 3 comments
-
update: 上述PR已合并到main
使用建议(结合下表分析):
当然,效果最好的还是Q8_0,与F16几乎没有显著差别。对速度要求较高的可以按以上建议选择量化模式。 |
Beta Was this translation helpful? Give feedback.
0 replies
-
新版Benchmark(只有速度变化)7B(旧版本)
7B(新版本)
|
Beta Was this translation helpful? Give feedback.
0 replies
-
13B(旧版本)
13B(新版本)
|
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
llama.cpp即将迎来(现在还没有)新一次大更新,以下是几点需要关注的地方,供参考。
这个PR将很快合并到main branch,主要是进一步提升了模型推理速度
粗略看了一下,提速并不是很明显,聊胜于无。以下是8线程的结果(摘自PR里的表格)。
上述PR合并到main branch之后,所有的旧ggml文件(Q4, Q5)将不能被新版llama.cpp加载
consolidate.*.pth
文件,以便llama.cpp更新后可以将pth
文件转换为新版ggmlP.S.(2023/5/10)现在的最新版中解决了部分环境下,交互时只能删除半个中文的问题,建议更新(仍然可以加载现有的ggml文件)。
Beta Was this translation helpful? Give feedback.
All reactions