DiscoBench: 开放式算法发现基准

开发者: Alex Goldie et al.

核心命题: 传统的评估只看固定任务,而 DiscoBench 专注于评估 Agent 在没有已知“完美答案”的开放领域中发现新算法的能力。

1. 核心特性

🔹 模块化代码库 (Modular File System)

将 AI 研究代码拆解为 Loss、Optimizer、Network 等模块,Agent 可以自由组合或编辑特定模块来构建新算法。

🔹 元训练/元测试拆分 (Meta-Train/Meta-Test)

Agent 在发现过程中不知道其算法最终将如何被评估,这极大地考验了算法的泛化能力而非针对基准的过拟合。

2. 对 Weco-Hybrid 的实战意义


返回论文列表 | 返回内核