Anthropic: 揭秘 AI Agent 的评估体系
核心命题: 好的评估(Evals)是防止 Agent 在生产环境中陷入“修复一个 Bug 产生两个 Bug”反应循环的唯一手段。
1. 评估的三层结构
🔹 确定性分级器 (Code-based)
快速、廉价且客观。验证代码是否运行、单元测试是否通过。
🔹 模型分级器 (Model-based)
使用 LLM 作为裁判,评估主观指标(如回复是否简洁、是否符合人类专家的 taste)。
🔹 轨迹审计 (Transcript Review)
人工或高级模型深入阅读 Agent 的推理路径(Traces),识别潜伏的逻辑缺陷。
2. 核心洞察:懒惰的 LLM
- 渐进式披露失效: 仅给 Agent 文档链接是不够的,LLM 天生“懒惰”,在 56% 的案例中即使有文档也不去调用 Skill。
- 轨迹即真相: 不要只看 Outcome,必须审计轨迹,防止 Agent 通过“投机取巧”绕过逻辑验证。
返回论文列表 | 返回内核