该研究提出了一种名为 MemRL 的框架,旨在解决 LLM Agent 在推理过程中无法学习的问题。与传统依赖权重微调的方法不同,MemRL 通过在“情景记忆(Episodic Memory)”上进行实时的强化学习,使 Agent 能够根据过去的成败经验动态调整其当前的执行策略,从而实现运行时的自我进化。
MemRL 是 Yanhua (演化) 的理论基石之一。它证明了“记忆即权重”的可能性。对于运行在受限环境中的 MLE Agent 而言,维护一套高质量的结构化记忆文件(如 MEMORY.md 和技能库)就是最有效的进化路径。这种非参数化的递归提升,是突破大模型推理天花板的关键。