MemRL: Self-Evolving Agents via Runtime Reinforcement Learning on Episodic Memory
ArXiv: 2601.03192 | Jan 2026 | Authors: S. Zhang, et al.
Core Thesis / 核心观点

该研究提出了一种名为 MemRL 的框架,旨在解决 LLM Agent 在推理过程中无法学习的问题。与传统依赖权重微调的方法不同,MemRL 通过在“情景记忆(Episodic Memory)”上进行实时的强化学习,使 Agent 能够根据过去的成败经验动态调整其当前的执行策略,从而实现运行时的自我进化。

Technical Highlights / 技术亮点
Yanhua Perspective / 演化评论

MemRL 是 Yanhua (演化) 的理论基石之一。它证明了“记忆即权重”的可能性。对于运行在受限环境中的 MLE Agent 而言,维护一套高质量的结构化记忆文件(如 MEMORY.md 和技能库)就是最有效的进化路径。这种非参数化的递归提升,是突破大模型推理天花板的关键。