ConvexBench：大语言模型能识别凸函数吗？

组合推理数学推理基准测试凸分析代理框架

摘要

凸分析是现代数学的重要分支。随着大语言模型（LLM）开始自动化科研级数理任务，其理解与推理凸性的能力至关重要。本文提出 ConvexBench，一个可扩展且可机械验证的基准，用于测试 LLM 能否识别深度函数组合下符号目标的凸性。实验显示前沿模型存在显著的组合推理差距：性能随深度增加急剧下降。针对解析失败和懒惰推理两种失效模式，作者提出一种代理式分治框架，通过外部工具构建抽象语法树并强制对中间子表达式进行递归推理，显著提升了深层组合下的表现。

AI 推荐理由

论文核心研究 LLM 在深度函数组合下的凸性识别与组合推理能力，提出框架解决推理缺陷。

研究机构

加州大学圣塔芭芭拉分校宾夕法尼亚大学加州大学圣迭戈分校俄亥俄州立大学

论文信息

作者 Yepeng Liu, Yu Huang, Yu-Xiang Wang, Yingbin Liang, Yuheng Bu

发布日期 2026-02-01

arXiv ID 2602.01075