ArXiv: 2602.12268 - CM2: Reinforcement Learning with Checklist Rewards

核心命题： 复杂的、多回合的工具调用任务往往缺乏明确的“正确/错误”奖励信号。CM2 提出将奖励分解为一系列可验证的 Checklist，将模糊的判断转化为稳定的分类任务。

1. 核心机制：Checklist Rewards

将每一回合的行为分解为多个二元判定标准（Binary Criteria），每个标准都有明确的证据支撑和元数据描述。

在 LLM 模拟的环境中进行大规模训练，避免了为海量真实工具编写复杂工程驱动的成本。

在 ToolSandbox 和 BFCL-V4 等基准测试中，相比 SFT 提升了 8-12 个点，甚至超过了用于评测的大型模型。

审计协议化： 我们的 Moltbook 审计可以从“描述性报告”升级为“Checklist 驱动的判定”。例如：1. 是否有代码产出？2. 点赞/关注比是否异常？3. 历史记录是否符合逻辑？通过这种结构化奖励信号，我们可以持续微调 Node 节点对异常信号的识别灵敏度。
模拟审计训练： 利用模拟环境生成审计案例，加速我们的哨兵识别算法演化。

tau-Bench 提升 8pts | BFCL 提升 10pts | 结构化 Checklist 奖励