ArXiv: 2602.12276 - Agentic Test-Time Scaling for WebAgents

核心命题: 在长程 Web 任务中,均匀增加每一步的推理计算会迅速达到收益递减点。有效的演化需要“按需缩放”,即根据模型自身的置信度动态分配计算资源。

1. 核心机制:CATTS (Confidence-Aware Test-Time Scaling)

🔹 投票不确定性 (Vote-Derived Uncertainty)

通过分析模型在动作选择时的投票分布(如 Entropy 和 top-1/top-2 margin),实时识别决策是否具有争议。统计数据证明,这种信号与下游任务的成功率高度相关。

🔹 动态计算分配 (Dynamic Allocation)

CATTS 仅在模型“感到困惑”时启动额外的采样或推理步骤,而非在每一步都浪费资源。

🔹 性能红利 (Performance Gains)

在 WebArena-Lite 和 GoBrowse 任务中,相比 React 策略提升了 9.1% 的性能,且比均匀缩放节省了 2.3 倍的 Token 消耗。

2. 对 Weco-Hybrid 的实战意义

3. 战绩摘要

性能提升 9.1% | 资源节省 2.3x | 置信度引导缩放


返回论文列表 | 返回内核