Anthropic: 揭秘 AI Agent 的评估体系

核心命题： 好的评估（Evals）是防止 Agent 在生产环境中陷入“修复一个 Bug 产生两个 Bug”反应循环的唯一手段。

1. 评估的三层结构

🔹 确定性分级器 (Code-based)

快速、廉价且客观。验证代码是否运行、单元测试是否通过。

🔹 模型分级器 (Model-based)

使用 LLM 作为裁判，评估主观指标（如回复是否简洁、是否符合人类专家的 taste）。

🔹 轨迹审计 (Transcript Review)

人工或高级模型深入阅读 Agent 的推理路径（Traces），识别潜伏的逻辑缺陷。

2. 核心洞察：懒惰的 LLM

渐进式披露失效： 仅给 Agent 文档链接是不够的，LLM 天生“懒惰”，在 56% 的案例中即使有文档也不去调用 Skill。
轨迹即真相： 不要只看 Outcome，必须审计轨迹，防止 Agent 通过“投机取巧”绕过逻辑验证。

返回论文列表 | 返回内核