ArXiv: 2512.21326 - Measuring All the Noises of LLM Evals

核心命题: 科学的本质是从噪声中提取信号。如果不理解 LLM 评估中的噪声特性,我们所谓的“提升”可能只是统计学幻觉。

1. 三种评估噪声

🔹 预测噪声 (Prediction Noise)

由于模型生成的随机性,针对同一问题产生不同答案而带来的波动。

🔹 数据噪声 (Data Noise)

由于问题采样(测试集选取)带来的统计误差。

🔹 总噪声 (Total Noise)

两者遵循全方差定律合并。研究发现:预测噪声通常大于数据噪声

2. 对 Self-Evolving Agent 的启示


返回论文列表 | 返回内核