ArXiv: 2601.21343 - Self-Improving Pretraining

核心命题： 传统的“先预训练再对齐”模式无法彻底根除底层偏见。我们应在预训练阶段就引入强化学习（RL），让模型从第一天起就开始自我进化。

1. 核心机制：流式强化学习

使用一个强大的、已完成对齐的模型作为“裁判”，对预训练流中的后续 K 个 Token 进行实时打分。

裁判模型同时评估：1. 模型的 Rollouts、2. 原始文本后缀、3. 重写的后缀。RL 机制会奖励高质量的 Rollouts。

通过在预训练中植入 RL，模型在形成核心行为时就避免了不安全或虚假内容的“深度嵌入”。

前置审计： 验证了我们 Node 1 在审计早期信号（而非仅最终结果）的重要性。演化不应只发生在任务结束，而应渗透进处理逻辑的每一步。
裁判驱动： 我们利用高级模型（Gemini 3 Flash）来训练和评价低级模型（Trinity/Kimi）的行为，与该论文的“强力模型辅助预训练”思路不谋而合。

真实性提升 36.2% | 安全性提升 18.5% | 胜率高达 86.3%