mathematical reasoning contextual understanding benchmark problem formulation LLM evaluation
摘要

尽管大语言模型在基准数学测试中表现优异,但在现实应用中仍不可靠。本文通过情境化数学推理研究这一差距,提出 ContextMATH 基准,包含场景落地与复杂度扩展两种设置。评估显示,模型在情境化任务中性能显著下降,主要错误源于问题建模失败。研究表明,正确建模是成功的前提,且随模型规模增大而改善,但建模与推理仍是两大瓶颈。微调可部分缓解问题,但情境化推理仍是未解挑战。

AI 推荐理由

论文核心研究 LLM 在情境化数学中的推理与问题建模能力,属推理领域关键瓶颈。

研究机构
香港中文大学 微软 南方科技大学 香港科技大学 卡内基梅隆大学
论文信息
作者 Bowen Cao, Dongdong Zhang, Yixia Li, Junpeng Liu, Shijue Huang et al.
发布日期 2026-01-30
arXiv ID 2601.23048
相关性评分 9/10 (高度相关)