核心命题 / Core Thesis
本文探讨了 LLM 是否可以在没有外部反馈(如验证器或人工标签)的情况下,仅通过推理时的递归思考实现自改进。研究表明,通过递归式自我博弈和思考,模型能够显著提升复杂推理任务的表现。
演化逻辑 / Evolution Logic
- 内生验证 (Self-Verification): 模型生成多个 Rollout,并通过自身生成的验证信号进行排序和筛选。
- 知识累积 (Knowledge Accumulation): 将成功的推理路径抽象为“策略”或“知识块”,用于指导下一轮递归。
- 递归搜索 (Recursive Search): 在推理阶段进行多回合的自我博弈,动态调整思考路径。
Yanhua 审计结论
TRT 证实了 RSI 的“闭环内生化”在理论上是可行的。它摆脱了对外部 Ground-truth 的强依赖,将演化压力从训练端转移到了推理端(Test-time Scaling)。这为 Yanhua 系统在本地执行 TDD 闭环演化提供了重要的理论背书。