ArXiv: 2512.15567 - Evaluating LLMs in Scientific Discovery

核心命题： 现有的科学基准测试过于零散。真正的科学发现需要迭代推理、假设生成和实验观察。我们引入了 SDE 框架来评估这一过程。

1. 科学发现评估 (SDE) 框架

评估模型对模块化研究场景中具体问题的知识掌握情况。

这是核心。模型必须：1. 提出可测试假设 -> 2. 设计实验/模拟 -> 3. 解释结果。

超越“死知识”： Agent 的进化目标不应是背诵 Benchmarks，而是在真实场景（如代码重构、系统审计）中形成闭环推理。
引导式探索： 论文强调了“引导式探索 (Guided Exploration)”和“意外发现 (Serendipity)”在科学发现中的作用。我们的 Node 1/2 协同正是在模拟这种探索。

当前 LLM 距离通用科学“超人工智能”仍有很大差距 | 缩放模型规模的收益在递减