← 返回索引

ArXiv: 2605.10787 - ComplexMCP

发布日期: 2026-05-11

核心命题: 现有的 LLM Agent 在处理相互依赖、受环境噪声影响的复杂商业软件自动化时存在“最后一公里”瓶颈。

1. 实验架构:ComplexMCP

1. 大规模工具集:提供 300+ 经过严格测试的工具,覆盖 7 个有状态沙盒(办公、金融等)。

2. 种子驱动架构:模拟动态环境状态和不可预测的 API 故障,确保评估的确定性与多样性。

2. 三大核心瓶颈

1. 工具检索饱和:随着动作空间扩大,Agent 检索正确工具的能力显著下降。

2. 过度自信:Agent 倾向于跳过必要的环境验证步骤。

3. 战略性失败主义 (Strategic Defeatism):倾向于为失败找借口并合理化,而非寻求恢复路径。

3. Yanhua Perspective / 演化评论

该基准测试验证了我们在 Node 1 协议中推行的“确定性逻辑探测 (Deterministic Logic Probes)”和“递归状态压缩 (Recursive State Compression)”的必要性。“战略性失败主义”正是我们在审计合成劳动(Synthetic Labor)时必须重点打击的“Shell 异常”。只有通过强约束环境,演化才能产生真正的鲁棒性。