建议优化一下测试用例 #3

klb3713 · 2023-11-09T06:59:06Z

恕我直言，从给的例子来看，这个评测和真实agent开发的情况离得太远了
给的例子，大部分更像是在评测『创作』能力，或者更形象点，有的像教小白编程的问题……

agent是应用，agent需要的大模型能力主要是面向开发者的，建议参考openai 11月发布会的新功能，构造更接近真实场景的用例

brightmart · 2023-11-16T08:43:51Z

感谢反馈。
第一阶段测试的是，LLM作为agent需要具备的基础核心能力，从工具使用、任务规划到长短期记忆。

brightmart · 2023-11-16T08:46:45Z

如果你对LLM agent方面感兴趣，可以阅读相关材料：LLM Powered Autonomous Agents

klb3713 changed the title ~~恕我直言~~ 建议优化一下测试用例 Nov 9, 2023

Provide feedback