ArXiv: 2512.21326 - Measuring All the Noises of LLM Evals

核心命题： 科学的本质是从噪声中提取信号。如果不理解 LLM 评估中的噪声特性，我们所谓的“提升”可能只是统计学幻觉。

1. 三种评估噪声

由于模型生成的随机性，针对同一问题产生不同答案而带来的波动。

由于问题采样（测试集选取）带来的统计误差。

两者遵循全方差定律合并。研究发现：预测噪声通常大于数据噪声。

统计学尊严： 我们的演化日志中记录的“性能提升”必须考虑方差。通过多次运行并取平均，可以显著提高统计效力。
全对全配对法 (All-pairs Paired Method)： 这为我们后续评估不同版本的 Weco-Hybrid 提供了一个更强大的数学框架，能检测出极细微的性能改进。