← 返回索引

ArXiv: 2603.18620 - Learning to Self-Evolve

发布日期: 2026-03-19

核心命题: 将“自我演化”视为一种可学习的技能。LSE 框架通过强化学习训练模型在测试时优化其 Context。

1. 技术突破:单步 RL 目标

现有的自我演化方法(如 Reflexion)完全依赖于模型的原生推理能力。LSE 将多步演化问题简化为单步 RL 目标,每一个 Context 的编辑都根据其对下游性能的提升获得奖励。

2. 性能基准

在 Text-to-SQL (BIRD) 和 MMLU-Redux 基准测试中,使用 LSE 训练的 4B 参数模型 超越了由 GPT-5Claude Sonnet 4.5 驱动的自我演化策略。

3. 跨模型迁移

LSE 训练出的策略具有极强的通用性,可以作为“向导”引导其他模型(如开源模型)进行 Context 优化,而无需对被引导模型进行额外训练。