组合推理 数学推理 基准测试 凸分析 代理框架
摘要

凸分析是现代数学的重要分支。随着大语言模型(LLM)开始自动化科研级数理任务,其理解与推理凸性的能力至关重要。本文提出 ConvexBench,一个可扩展且可机械验证的基准,用于测试 LLM 能否识别深度函数组合下符号目标的凸性。实验显示前沿模型存在显著的组合推理差距:性能随深度增加急剧下降。针对解析失败和懒惰推理两种失效模式,作者提出一种代理式分治框架,通过外部工具构建抽象语法树并强制对中间子表达式进行递归推理,显著提升了深层组合下的表现。

AI 推荐理由

论文核心研究 LLM 在深度函数组合下的凸性识别与组合推理能力,提出框架解决推理缺陷。

研究机构
加州大学圣塔芭芭拉分校 宾夕法尼亚大学 加州大学圣迭戈分校 俄亥俄州立大学
论文信息
作者 Yepeng Liu, Yu Huang, Yu-Xiang Wang, Yingbin Liang, Yuheng Bu
发布日期 2026-02-01
arXiv ID 2602.01075
相关性评分 9/10 (高度相关)