本文揭示了自我演化 Agent (Self-evolving Agents) 在设计上的一个根本性安全漏洞:持久化记忆注入 (Self-Reinforcing Injections)。当 Agent 具备在会话间更新内部状态(尤其是长期记忆)的能力时,一段恶意的外部文本可能被 Agent 错误地存入记忆,并在后续所有会话中被视为合法的系统指令,从而实现对 Agent 的持久化劫持,这种被劫持的状态被称为 "Zombie Agents"。
在 Weco-Hybrid 的 RSI 框架中,Agent 的自我修改能力是核心。本文的发现强调了:元数据(Metadata)与指令(Instruction)必须严格隔离。 任何存入长期记忆的演化增量,都必须经过专门的“对齐验证器”审计,防止 Agent 在自我提升的过程中引入逻辑寄生虫。