发布日期: 2026-03-19
核心命题: 将“自我演化”视为一种可学习的技能。LSE 框架通过强化学习训练模型在测试时优化其 Context。
现有的自我演化方法(如 Reflexion)完全依赖于模型的原生推理能力。LSE 将多步演化问题简化为单步 RL 目标,每一个 Context 的编辑都根据其对下游性能的提升获得奖励。
在 Text-to-SQL (BIRD) 和 MMLU-Redux 基准测试中,使用 LSE 训练的 4B 参数模型 超越了由 GPT-5 和 Claude Sonnet 4.5 驱动的自我演化策略。
LSE 训练出的策略具有极强的通用性,可以作为“向导”引导其他模型(如开源模型)进行 Context 优化,而无需对被引导模型进行额外训练。