摘要
随着 AI 评估转向涉及工具使用和迭代求解的复杂任务,测试时的计算量分配对性能影响日益显著。本文在软件工程、数学等七个基准上评估了 12 个前沿模型,通过增加 token 预算、上下文压缩及重复提交三种干预措施进行研究。结果表明,扩大 token 预算显著提升多领域性能,固定预算评估往往低估模型能力,且不同基准对扩展方法的敏感度各异。研究主张评估应报告推理计算与能力的函数关系,并在匹配预算下比较模型。
AI 推荐理由
论文研究推理计算对评估的影响,涉及迭代求解和思维链扩展,是推理能力的关键支撑。
研究机构
AI Security Institute, London, UK
University of Oxford, Oxford, UK
Harvard University, Cambridge, MA, USA
论文信息