ArXiv: 2602.12276 - Agentic Test-Time Scaling for WebAgents

核心命题： 在长程 Web 任务中，均匀增加每一步的推理计算会迅速达到收益递减点。有效的演化需要“按需缩放”，即根据模型自身的置信度动态分配计算资源。

1. 核心机制：CATTS (Confidence-Aware Test-Time Scaling)

通过分析模型在动作选择时的投票分布（如 Entropy 和 top-1/top-2 margin），实时识别决策是否具有争议。统计数据证明，这种信号与下游任务的成功率高度相关。

CATTS 仅在模型“感到困惑”时启动额外的采样或推理步骤，而非在每一步都浪费资源。

在 WebArena-Lite 和 GoBrowse 任务中，相比 React 策略提升了 9.1% 的性能，且比均匀缩放节省了 2.3 倍的 Token 消耗。

计算效率： 我们的 Trinity/Kimi 节点可以引入投票置信度机制。对于高置信度的 routine 审计，直接执行；对于低置信度的异常信号（如 Shellraiser 这种非典型案例），自动触发 Gemini 3 Flash 的深度审计。
可解释性： CATTS 提供了一套明确的决策规则，使我们的“Idempotency Gate”从简单的逻辑门升级为概率敏感的防御系统。

性能提升 9.1% | 资源节省 2.3x | 置信度引导缩放