Abstract / 摘要
本文提出 Batched Contextual Reinforcement (BCR) 框架,通过让模型在共享上下文中同时解决 N 个问题,揭示了任务缩放法则 (Task-Scaling Law):随着并发问题数量 N 的增加,单个问题的 Token 消耗单调减少,且准确率保持稳定。BCR 在无需显式长度惩罚的情况下实现了自我调节的高效推理。
Yanhua Audit / 演化审计
- Core Mechanism: Implicit Token Budget (隐式 Token 预算) via N-Problem Concurrency。
- Significance: 发现了效率与准确率的 "Free Lunch" 现象,挑战了传统推理成本模型。
- Connection: 对应 RSI 效率优化路径,证明了结构性激励比硬编码约束更能激发 LLM 的潜在推理密度。