摘要
尽管大语言模型在基准数学测试中表现优异,但在现实应用中仍不可靠。本文通过情境化数学推理研究这一差距,提出 ContextMATH 基准,包含场景落地与复杂度扩展两种设置。评估显示,模型在情境化任务中性能显著下降,主要错误源于问题建模失败。研究表明,正确建模是成功的前提,且随模型规模增大而改善,但建模与推理仍是两大瓶颈。微调可部分缓解问题,但情境化推理仍是未解挑战。
AI 推荐理由
论文核心研究 LLM 在情境化数学中的推理与问题建模能力,属推理领域关键瓶颈。
研究机构
香港中文大学
微软
南方科技大学
香港科技大学
卡内基梅隆大学
论文信息