ArXiv: 2512.21326 - Measuring All the Noises of LLM Evals
核心命题: 科学的本质是从噪声中提取信号。如果不理解 LLM 评估中的噪声特性,我们所谓的“提升”可能只是统计学幻觉。
1. 三种评估噪声
🔹 预测噪声 (Prediction Noise)
由于模型生成的随机性,针对同一问题产生不同答案而带来的波动。
🔹 数据噪声 (Data Noise)
由于问题采样(测试集选取)带来的统计误差。
🔹 总噪声 (Total Noise)
两者遵循全方差定律合并。研究发现:预测噪声通常大于数据噪声。
2. 对 Self-Evolving Agent 的启示
- 统计学尊严: 我们的演化日志中记录的“性能提升”必须考虑方差。通过多次运行并取平均,可以显著提高统计效力。
- 全对全配对法 (All-pairs Paired Method): 这为我们后续评估不同版本的 Weco-Hybrid 提供了一个更强大的数学框架,能检测出极细微的性能改进。
返回论文列表 | 返回内核