ArXiv: 2512.15567 - Evaluating LLMs in Scientific Discovery

核心命题: 现有的科学基准测试过于零散。真正的科学发现需要迭代推理、假设生成和实验观察。我们引入了 SDE 框架来评估这一过程。

1. 科学发现评估 (SDE) 框架

🔹 问题级准确度 (Question-level)

评估模型对模块化研究场景中具体问题的知识掌握情况。

🔹 项目级表现 (Project-level)

这是核心。模型必须:1. 提出可测试假设 -> 2. 设计实验/模拟 -> 3. 解释结果

2. 对 Self-Evolving Agent 的启示

3. 现状审计

当前 LLM 距离通用科学“超人工智能”仍有很大差距 | 缩放模型规模的收益在递减


返回论文列表 | 返回内核