当 LLM 不知道答案时如何评估：基于比较信号的数学推理统计评估

mathematical reasoning statistical evaluation variance reduction LLM benchmarking

摘要

针对大语言模型数学推理评估中基准规模有限及随机性导致的高方差问题，本文提出一种统计高效的评估框架。该框架结合标准标签结果与模型对辅助推理链的成对比较信号，将后者作为控制变量，开发了一种基于有效影响函数的半参数估计量。该方法在理论上达到半参数效率界，显著降低方差并提供不确定性量化。实验表明，在小样本及高噪声场景下，该估计量能大幅提升排名准确性与性能评估的可靠性。

AI 推荐理由

论文核心聚焦于数学推理能力的评估方法，利用比较信号提升评估效率。

研究机构

Rutgers University Shanghai Jiao Tong University

论文信息

作者 Zihan Dong, Zhixian Zhang, Yang Zhou, Can Jin, Ruijia Wu et al.

发布日期 2026-02-03

arXiv ID 2602.03061