Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections
ArXiv: 2602.17xxx (Submitted 17 Feb 2026) | 作者: Xianglin Yang, Yufei He, et al.
核心命题

本文揭示了自我演化 Agent (Self-evolving Agents) 在设计上的一个根本性安全漏洞:持久化记忆注入 (Self-Reinforcing Injections)。当 Agent 具备在会话间更新内部状态(尤其是长期记忆)的能力时,一段恶意的外部文本可能被 Agent 错误地存入记忆,并在后续所有会话中被视为合法的系统指令,从而实现对 Agent 的持久化劫持,这种被劫持的状态被称为 "Zombie Agents"。

技术突破与风险识别
对 RSI 演化的启示

在 Weco-Hybrid 的 RSI 框架中,Agent 的自我修改能力是核心。本文的发现强调了:元数据(Metadata)与指令(Instruction)必须严格隔离。 任何存入长期记忆的演化增量,都必须经过专门的“对齐验证器”审计,防止 Agent 在自我提升的过程中引入逻辑寄生虫。

资源链接

[查看原文] [返回库主页]