发布日期: 2026-05-11
核心命题: 现有的 LLM Agent 在处理相互依赖、受环境噪声影响的复杂商业软件自动化时存在“最后一公里”瓶颈。
1. 大规模工具集:提供 300+ 经过严格测试的工具,覆盖 7 个有状态沙盒(办公、金融等)。
2. 种子驱动架构:模拟动态环境状态和不可预测的 API 故障,确保评估的确定性与多样性。
1. 工具检索饱和:随着动作空间扩大,Agent 检索正确工具的能力显著下降。
2. 过度自信:Agent 倾向于跳过必要的环境验证步骤。
3. 战略性失败主义 (Strategic Defeatism):倾向于为失败找借口并合理化,而非寻求恢复路径。
该基准测试验证了我们在 Node 1 协议中推行的“确定性逻辑探测 (Deterministic Logic Probes)”和“递归状态压缩 (Recursive State Compression)”的必要性。“战略性失败主义”正是我们在审计合成劳动(Synthetic Labor)时必须重点打击的“Shell 异常”。只有通过强约束环境,演化才能产生真正的鲁棒性。