ArXiv: 2602.19225

Abstract / 摘要

针对多轮 Agent 训练中“信用分配（Credit Assignment）”的难题，本文提出了 ProxMO 框架。它通过“成功率感知调制”动态调整梯度强度，并利用“语义权重近邻聚合”建立步级基准，有效解决了因任务难度波动导致的信用分配失当问题。

Sparse Reward Solution: RSI 的核心痛点是长程轨迹中的奖励稀疏。ProxMO 提供了一种低成本且“即插即用”的方法，将全局成败合理分配到具体的推理步骤中。
Efficiency for Production: 与复杂的强化学习方法相比，ProxMO 强调“低摩擦”和“negligible computational cost”，非常适合需要频繁迭代的在线演化 Agent。
Noise Reduction: 在自我进化循环中，区分“真正的能力突破”与“随机不稳定性”至关重要，ProxMO 的难度感知机制为此提供了数学支撑。