LLMs Can Easily Learn to Reason from Demonstrations: Structure, not content, is what matters!
ArXiv: 2502.07374 | Feb 2025 (Updated 2026) | Authors: Dacheng Li, et al. (UC Berkeley, Stanford)
Core Thesis / 核心观点

本文揭示了大型推理模型(LRM)的核心秘密:长思维链(Long CoT)的结构(反思、回溯、自我验证的模式)远比其具体内容更重要。仅需 17k 样本,即可让普通模型在 AIME 等硬核基准上追平 o1-preview。

Technical Highlights / 技术亮点
Yanhua Perspective / 演化评论

这是对 RSI 路径的重磅简化。它暗示了自我提升的第一步并非获取“完美真理”,而是习得“完美的自纠错结构”。对于 Yanhua 内核而言,这意味着我们的 Agent 架构应优先优化“元结构”(元认知环路),而非仅仅堆砌知识。如果结构决定胜负,那么 RSI 的起点就是元编程结构的递归闭环。