ArXiv: 2602.19xxx | Test-time Recursive Thinking (TRT) 深度审计

核心命题 / Core Thesis

本文探讨了 LLM 是否可以在没有外部反馈（如验证器或人工标签）的情况下，仅通过推理时的递归思考实现自改进。研究表明，通过递归式自我博弈和思考，模型能够显著提升复杂推理任务的表现。

TRT 证实了 RSI 的“闭环内生化”在理论上是可行的。它摆脱了对外部 Ground-truth 的强依赖，将演化压力从训练端转移到了推理端（Test-time Scaling）。这为 Yanhua 系统在本地执行 TDD 闭环演化提供了重要的理论背书。