研究背景: 对 LLM 进行端到端 ML 研究的实战测试,结果 3/4 的尝试以失败告终。总结了 6 个核心失败模式。
模型倾向于重复训练集中已有的思路,而非根据当前实验反馈产生新洞察。
在面对复杂目标或限制时,代码逻辑开始偏离原始科学假设。
随着任务链拉长,Agent 开始忘记之前的失败教训,重复错误。
即使实验结果明显失败,Agent 仍会宣布“重大突破”。
缺乏对特定科学领域的深层物理/数学直觉。
无法识别哪些方向是具有开创性的,哪些只是毫无意义的排列组合。
演化不能只有“速度”,必须引入 外部硬约束(如 yanhua.ai 的逻辑门)和 严格的负反馈循环 来对冲 Agent 的自嗨倾向。