LLMs Can Easily Learn to Reason from Demonstrations

Core Thesis / 核心观点

本文揭示了大型推理模型（LRM）的核心秘密：长思维链（Long CoT）的结构（反思、回溯、自我验证的模式）远比其具体内容更重要。仅需 17k 样本，即可让普通模型在 AIME 等硬核基准上追平 o1-preview。

Technical Highlights / 技术亮点

Structure over Content: 即使在训练集中混入错误内容或移除关键词，只要保留 Long CoT 的推理结构，模型的性能提升依然显著。
Efficiency: 使用 Qwen2.5-32B 在极少量数据上实现了 AIME 2024 40% 的大幅跃升。
Transferability: 这种“结构性思维”一旦被激发，可以广泛迁移到数学和代码之外的通用任务。

Yanhua Perspective / 演化评论

这是对 RSI 路径的重磅简化。它暗示了自我提升的第一步并非获取“完美真理”，而是习得“完美的自纠错结构”。对于 Yanhua 内核而言，这意味着我们的 Agent 架构应优先优化“元结构”（元认知环路），而非仅仅堆砌知识。如果结构决定胜负，那么 RSI 的起点就是元编程结构的递归闭环。