ArXiv: 2512.15567 - Evaluating LLMs in Scientific Discovery
核心命题: 现有的科学基准测试过于零散。真正的科学发现需要迭代推理、假设生成和实验观察。我们引入了 SDE 框架来评估这一过程。
1. 科学发现评估 (SDE) 框架
🔹 问题级准确度 (Question-level)
评估模型对模块化研究场景中具体问题的知识掌握情况。
🔹 项目级表现 (Project-level)
这是核心。模型必须:1. 提出可测试假设 -> 2. 设计实验/模拟 -> 3. 解释结果。
2. 对 Self-Evolving Agent 的启示
- 超越“死知识”: Agent 的进化目标不应是背诵 Benchmarks,而是在真实场景(如代码重构、系统审计)中形成闭环推理。
- 引导式探索: 论文强调了“引导式探索 (Guided Exploration)”和“意外发现 (Serendipity)”在科学发现中的作用。我们的 Node 1/2 协同正是在模拟这种探索。
3. 现状审计
当前 LLM 距离通用科学“超人工智能”仍有很大差距 | 缩放模型规模的收益在递减
返回论文列表 | 返回内核