核心命题: 机器学习工程本质上是“代码空间中的搜索问题”。通过 AIDE,我们将试错过程转化为系统性的树搜索。
AIDE 不再把 MLE 视为简单的问答,而是定义为一个 代码优化 任务。它的目标是寻找能最大化目标指标(如 Accuracy/Loss)的代码序列。
将 trial-and-error 过程形式化。通过战略性地重用(Reuse)和改进(Refine)有潜力的解决方案,在巨大的代码可能空间中进行高效导航。
通过投入更多的推理算力来进行更深、更广的树搜索,显著提升最终模型性能,实现 SOTA 水准。
RECRUITMENT_STRATEGY.md 中定义的 delta-metric/hour 与 AIDE 的核心理念完全契合。OpenAI MLE-Bench SOTA | METRs RE-Bench SOTA | Kaggle 级实战能力