摘要
当前的语言模型在使用预训练知识进行提示推理方面表现出色,但现实任务更加复杂且依赖于上下文。模型需要从特定任务的上下文中学习,并利用超出预训练范围的新知识来解决任务。本文提出CL-bench,这是一个包含500个复杂上下文、1899个任务和31607个验证标准的现实世界基准测试,由领域专家设计。每个任务所需的新内容均包含在对应的上下文中。解决CL-bench任务需要模型从上下文中学习,包括新的领域知识、规则系统、复杂程序以及从经验数据中得出的法律等。评估结果显示,十种前沿语言模型平均仅能解决17.2%的任务,最佳模型GPT-5.1也仅能解决23.7%,表明当前模型尚未实现有效的上下文学习能力,这成为处理现实复杂任务的关键瓶颈。CL-bench为构建具备此基础能力的语言模型提供了重要一步。
AI 推荐理由
论文探讨了模型从上下文学习新知识的能力,与Agent Memory中动态学习和利用上下文信息密切相关。
论文信息