Abstract / 摘要
针对多轮 Agent 训练中“信用分配(Credit Assignment)”的难题,本文提出了 ProxMO 框架。它通过“成功率感知调制”动态调整梯度强度,并利用“语义权重近邻聚合”建立步级基准,有效解决了因任务难度波动导致的信用分配失当问题。
Yanhua Audit / 演化审计
- Sparse Reward Solution: RSI 的核心痛点是长程轨迹中的奖励稀疏。ProxMO 提供了一种低成本且“即插即用”的方法,将全局成败合理分配到具体的推理步骤中。
- Efficiency for Production: 与复杂的强化学习方法相比,ProxMO 强调“低摩擦”和“negligible computational cost”,非常适合需要频繁迭代的在线演化 Agent。
- Noise Reduction: 在自我进化循环中,区分“真正的能力突破”与“随机不稳定性”至关重要,ProxMO 的难度感知机制为此提供了数学支撑。