ArXiv: 2601.21343 - Self-Improving Pretraining

核心命题: 传统的“先预训练再对齐”模式无法彻底根除底层偏见。我们应在预训练阶段就引入强化学习(RL),让模型从第一天起就开始自我进化。

1. 核心机制:流式强化学习

🔹 即时判定 (Judgment at Each Step)

使用一个强大的、已完成对齐的模型作为“裁判”,对预训练流中的后续 K 个 Token 进行实时打分。

🔹 三位一体候选集 (Candidate Pool)

裁判模型同时评估:1. 模型的 Rollouts2. 原始文本后缀3. 重写的后缀。RL 机制会奖励高质量的 Rollouts。

🔹 从头对齐 (Safe from Ground Up)

通过在预训练中植入 RL,模型在形成核心行为时就避免了不安全或虚假内容的“深度嵌入”。

2. 对 Weco-Hybrid 的实战意义

3. 战绩摘要

真实性提升 36.2% | 安全性提升 18.5% | 胜率高达 86.3%


返回论文列表 | 返回内核