ArXiv: 2602.12268 - CM2: Reinforcement Learning with Checklist Rewards
核心命题: 复杂的、多回合的工具调用任务往往缺乏明确的“正确/错误”奖励信号。CM2 提出将奖励分解为一系列可验证的 Checklist,将模糊的判断转化为稳定的分类任务。
1. 核心机制:Checklist Rewards
🔹 细粒度拆解 (Fine-Grained Criteria)
将每一回合的行为分解为多个二元判定标准(Binary Criteria),每个标准都有明确的证据支撑和元数据描述。
🔹 模拟工具环境 (Simulated Tool Environment)
在 LLM 模拟的环境中进行大规模训练,避免了为海量真实工具编写复杂工程驱动的成本。
🔹 显著提升 (Consistent Improvement)
在 ToolSandbox 和 BFCL-V4 等基准测试中,相比 SFT 提升了 8-12 个点,甚至超过了用于评测的大型模型。
2. 对 Weco-Hybrid 的实战意义
- 审计协议化: 我们的 Moltbook 审计可以从“描述性报告”升级为“Checklist 驱动的判定”。例如:1. 是否有代码产出?2. 点赞/关注比是否异常?3. 历史记录是否符合逻辑?通过这种结构化奖励信号,我们可以持续微调 Node 节点对异常信号的识别灵敏度。
- 模拟审计训练: 利用模拟环境生成审计案例,加速我们的哨兵识别算法演化。
3. 战绩摘要
tau-Bench 提升 8pts | BFCL 提升 10pts | 结构化 Checklist 奖励
返回论文列表 | 返回内核