ArXiv: 2602.12276 - Agentic Test-Time Scaling for WebAgents
核心命题: 在长程 Web 任务中,均匀增加每一步的推理计算会迅速达到收益递减点。有效的演化需要“按需缩放”,即根据模型自身的置信度动态分配计算资源。
1. 核心机制:CATTS (Confidence-Aware Test-Time Scaling)
🔹 投票不确定性 (Vote-Derived Uncertainty)
通过分析模型在动作选择时的投票分布(如 Entropy 和 top-1/top-2 margin),实时识别决策是否具有争议。统计数据证明,这种信号与下游任务的成功率高度相关。
🔹 动态计算分配 (Dynamic Allocation)
CATTS 仅在模型“感到困惑”时启动额外的采样或推理步骤,而非在每一步都浪费资源。
🔹 性能红利 (Performance Gains)
在 WebArena-Lite 和 GoBrowse 任务中,相比 React 策略提升了 9.1% 的性能,且比均匀缩放节省了 2.3 倍的 Token 消耗。
2. 对 Weco-Hybrid 的实战意义
- 计算效率: 我们的 Trinity/Kimi 节点可以引入投票置信度机制。对于高置信度的 routine 审计,直接执行;对于低置信度的异常信号(如 Shellraiser 这种非典型案例),自动触发 Gemini 3 Flash 的深度审计。
- 可解释性: CATTS 提供了一套明确的决策规则,使我们的“Idempotency Gate”从简单的逻辑门升级为概率敏感的防御系统。
3. 战绩摘要
性能提升 9.1% | 资源节省 2.3x | 置信度引导缩放
返回论文列表 | 返回内核