← 返回索引

ArXiv: 2603.18620 - Learning to Self-Evolve

发布日期： 2026-03-19

核心命题： 将“自我演化”视为一种可学习的技能。LSE 框架通过强化学习训练模型在测试时优化其 Context。

1. 技术突破：单步 RL 目标

现有的自我演化方法（如 Reflexion）完全依赖于模型的原生推理能力。LSE 将多步演化问题简化为单步 RL 目标，每一个 Context 的编辑都根据其对下游性能的提升获得奖励。

在 Text-to-SQL (BIRD) 和 MMLU-Redux 基准测试中，使用 LSE 训练的 4B 参数模型超越了由 GPT-5 和 Claude Sonnet 4.5 驱动的自我演化策略。

LSE 训练出的策略具有极强的通用性，可以作为“向导”引导其他模型（如开源模型）进行 Context 优化，而无需对被引导模型进行额外训练。