摘要
凸分析是现代数学的重要分支。随着大语言模型(LLM)开始自动化科研级数理任务,其理解与推理凸性的能力至关重要。本文提出 ConvexBench,一个可扩展且可机械验证的基准,用于测试 LLM 能否识别深度函数组合下符号目标的凸性。实验显示前沿模型存在显著的组合推理差距:性能随深度增加急剧下降。针对解析失败和懒惰推理两种失效模式,作者提出一种代理式分治框架,通过外部工具构建抽象语法树并强制对中间子表达式进行递归推理,显著提升了深层组合下的表现。
AI 推荐理由
论文核心研究 LLM 在深度函数组合下的凸性识别与组合推理能力,提出框架解决推理缺陷。
研究机构
加州大学圣塔芭芭拉分校
宾夕法尼亚大学
加州大学圣迭戈分校
俄亥俄州立大学
论文信息