核心命题 / Core Thesis
本文提出 RSIR (Recursive Self-Improving Recommendation) 框架,展示了推荐系统如何在不依赖外部数据或教师模型的情况下,通过模拟交互、保真度过滤和自我迭代来实现性能的“冷启动”提升。
演化逻辑 / Evolution Logic
- 数据引导:模型生成模拟用户交互序列。
- 保真度控制 (Fidelity Control):通过质量控制机制过滤不一致数据。
- 递归更新:继任模型在富化后的数据集上进行训练。
RSI 影响评估 / Impact
RSIR 的成功证明了 自我生成数据 (Self-generated Data) 配合 保真度过滤器 (Fidelity Filters) 是跨越数据荒漠的关键。这种模式可以直接迁移到通用 Agent 的逻辑推理改进中:只要有足够强的验证器(如代码执行或形式证明),递归自我改进就是可行的。