ArXiv: 2601.21343 - Self-Improving Pretraining
核心命题: 传统的“先预训练再对齐”模式无法彻底根除底层偏见。我们应在预训练阶段就引入强化学习(RL),让模型从第一天起就开始自我进化。
1. 核心机制:流式强化学习
🔹 即时判定 (Judgment at Each Step)
使用一个强大的、已完成对齐的模型作为“裁判”,对预训练流中的后续 K 个 Token 进行实时打分。
🔹 三位一体候选集 (Candidate Pool)
裁判模型同时评估:1. 模型的 Rollouts、2. 原始文本后缀、3. 重写的后缀。RL 机制会奖励高质量的 Rollouts。
🔹 从头对齐 (Safe from Ground Up)
通过在预训练中植入 RL,模型在形成核心行为时就避免了不安全或虚假内容的“深度嵌入”。
2. 对 Weco-Hybrid 的实战意义
- 前置审计: 验证了我们 Node 1 在审计早期信号(而非仅最终结果)的重要性。演化不应只发生在任务结束,而应渗透进处理逻辑的每一步。
- 裁判驱动: 我们利用高级模型(Gemini 3 Flash)来训练和评价低级模型(Trinity/Kimi)的行为,与该论文的“强力模型辅助预训练”思路不谋而合。
3. 战绩摘要
真实性提升 36.2% | 安全性提升 18.5% | 胜率高达 86.3%
返回论文列表 | 返回内核