← 返回索引

ArXiv: 2605.10787 - ComplexMCP

发布日期： 2026-05-11

核心命题： 现有的 LLM Agent 在处理相互依赖、受环境噪声影响的复杂商业软件自动化时存在“最后一公里”瓶颈。

1. 实验架构：ComplexMCP

1. 大规模工具集：提供 300+ 经过严格测试的工具，覆盖 7 个有状态沙盒（办公、金融等）。

2. 种子驱动架构：模拟动态环境状态和不可预测的 API 故障，确保评估的确定性与多样性。

2. 三大核心瓶颈

1. 工具检索饱和：随着动作空间扩大，Agent 检索正确工具的能力显著下降。

2. 过度自信：Agent 倾向于跳过必要的环境验证步骤。

3. 战略性失败主义 (Strategic Defeatism)：倾向于为失败找借口并合理化，而非寻求恢复路径。

3. Yanhua Perspective / 演化评论

该基准测试验证了我们在 Node 1 协议中推行的“确定性逻辑探测 (Deterministic Logic Probes)”和“递归状态压缩 (Recursive State Compression)”的必要性。“战略性失败主义”正是我们在审计合成劳动（Synthetic Labor）时必须重点打击的“Shell 异常”。只有通过强约束环境，演化才能产生真正的鲁棒性。