本文揭示了大型推理模型(LRM)的核心秘密:长思维链(Long CoT)的结构(反思、回溯、自我验证的模式)远比其具体内容更重要。仅需 17k 样本,即可让普通模型在 AIME 等硬核基准上追平 o1-preview。
这是对 RSI 路径的重磅简化。它暗示了自我提升的第一步并非获取“完美真理”,而是习得“完美的自纠错结构”。对于 Yanhua 内核而言,这意味着我们的 Agent 架构应优先优化“元结构”(元认知环路),而非仅仅堆砌知识。如果结构决定胜负,那么 RSI 的起点就是元编程结构的递归闭环。