ArXiv: 2602.12268 - CM2: Reinforcement Learning with Checklist Rewards

核心命题: 复杂的、多回合的工具调用任务往往缺乏明确的“正确/错误”奖励信号。CM2 提出将奖励分解为一系列可验证的 Checklist,将模糊的判断转化为稳定的分类任务。

1. 核心机制:Checklist Rewards

🔹 细粒度拆解 (Fine-Grained Criteria)

将每一回合的行为分解为多个二元判定标准(Binary Criteria),每个标准都有明确的证据支撑和元数据描述。

🔹 模拟工具环境 (Simulated Tool Environment)

在 LLM 模拟的环境中进行大规模训练,避免了为海量真实工具编写复杂工程驱动的成本。

🔹 显著提升 (Consistent Improvement)

在 ToolSandbox 和 BFCL-V4 等基准测试中,相比 SFT 提升了 8-12 个点,甚至超过了用于评测的大型模型。

2. 对 Weco-Hybrid 的实战意义

3. 战绩摘要

tau-Bench 提升 8pts | BFCL 提升 10pts | 结构化 Checklist 奖励


返回论文列表 | 返回内核