Abstract / 摘要
本文探讨了能够通过递归迭代提升自身性能的编码 Agent。研究发现,在 SWE-bench Verified 的随机子集上,性能增益可从 17% 提升至 53%,同时在 LiveCodeBench 以及合成生成的 Agent 基准测试上也取得了显著提升。这证明了闭环编码环境是 RSI 的天然孵化器。
Yanhua Audit / 演化审计
- Core Metric: SWE-bench Verified 性能从 17% 提升至 53%。
- Verification Logic: 利用合成基准进行中间验证,防止过度拟合现有测试集。
- Strategy: 验证了 Logic Evolution 在本地利用 TDD 闭环进行代码自我改进的潜力。