从抽象到情境：大语言模型在数学中仍无法完成的任务

mathematical reasoning contextual understanding benchmark problem formulation LLM evaluation

摘要

尽管大语言模型在基准数学测试中表现优异，但在现实应用中仍不可靠。本文通过情境化数学推理研究这一差距，提出 ContextMATH 基准，包含场景落地与复杂度扩展两种设置。评估显示，模型在情境化任务中性能显著下降，主要错误源于问题建模失败。研究表明，正确建模是成功的前提，且随模型规模增大而改善，但建模与推理仍是两大瓶颈。微调可部分缓解问题，但情境化推理仍是未解挑战。

AI 推荐理由

论文核心研究 LLM 在情境化数学中的推理与问题建模能力，属推理领域关键瓶颈。

研究机构

香港中文大学微软南方科技大学香港科技大学卡内基梅隆大学

论文信息

作者 Bowen Cao, Dongdong Zhang, Yixia Li, Junpeng Liu, Shijue Huang et al.

发布日期 2026-01-30

arXiv ID 2601.23048