推理计算如何塑造前沿大语言模型评估

inference compute LLM evaluation scaling laws benchmarking

摘要

随着 AI 评估转向涉及工具使用和迭代求解的复杂任务，测试时的计算量分配对性能影响日益显著。本文在软件工程、数学等七个基准上评估了 12 个前沿模型，通过增加 token 预算、上下文压缩及重复提交三种干预措施进行研究。结果表明，扩大 token 预算显著提升多领域性能，固定预算评估往往低估模型能力，且不同基准对扩展方法的敏感度各异。研究主张评估应报告推理计算与能力的函数关系，并在匹配预算下比较模型。

AI 推荐理由

论文研究推理计算对评估的影响，涉及迭代求解和思维链扩展，是推理能力的关键支撑。

研究机构

AI Security Institute, London, UK University of Oxford, Oxford, UK Harvard University, Cambridge, MA, USA

论文信息

作者 Jessica McFadyen, Ole Jorgensen, Harry Coppock, Kevin Wei, Cozmin Ududec

发布日期 2026-06-16

arXiv ID 2606.17930