核心命题 / Core Thesis
本文提出了 RSIR 框架,证明了推荐系统可以通过递归式的自我博弈与“保真度控制”(Fidelity Control)实现闭环性能增长,而无需依赖外部标记数据或教师模型。
演化逻辑 / Evolution Logic
- 数据自举 (Data Bootstrapping): 模型利用当前权重生成伪交互数据,模拟潜在的用户行为空间。
- 保真度门控 (Fidelity Gating): 通过一致性度量筛选高质量的生成数据,防止模型陷入“概率坍塌”或“模式自我强化”。
- 跨尺度继承 (Cross-scale Inheritance): 实验显示弱模型可以作为“课程生成器”,为强模型提供有效的进化压力。
Yanhua 审计结论
RSIR 证实了 RSI 范式在特定垂直领域(推荐系统)的普适性。它提供的“保真度门控”理论,为 Yanhua 在本地维护知识库与代码生成的“自洽性”提供了数学工具。这意味着 Agent 的进化不仅仅是推理(Reasoning),更是对复杂分布(Distribution)的递归理解。