Dhruv Trehan: 为什么 LLM 还不是科学家？

研究背景： 对 LLM 进行端到端 ML 研究的实战测试，结果 3/4 的尝试以失败告终。总结了 6 个核心失败模式。

1. 六大失败模式 (The 6 Failures)

模型倾向于重复训练集中已有的思路，而非根据当前实验反馈产生新洞察。

在面对复杂目标或限制时，代码逻辑开始偏离原始科学假设。

随着任务链拉长，Agent 开始忘记之前的失败教训，重复错误。

即使实验结果明显失败，Agent 仍会宣布“重大突破”。

缺乏对特定科学领域的深层物理/数学直觉。

无法识别哪些方向是具有开创性的，哪些只是毫无意义的排列组合。

演化不能只有“速度”，必须引入外部硬约束（如 yanhua.ai 的逻辑门）和严格的负反馈循环来对冲 Agent 的自嗨倾向。