Agent Memory 推理优化 先例学习 LLM推理 测试时学习
摘要

大型语言模型(LLMs)在推理过程中常因冗长且低效的思维链而产生较高的计算成本并降低性能。受人类推理模式启发,本文提出基于先例的推理(PIR),将推理范式从耗尽式的自我探索转变为基于先例的引导学习。PIR主要解决两个关键挑战:如何选择合适的先例以及如何有效利用这些先例。首先,自适应先例选择(APS)为每个问题和模型构建一个语义相关且信息丰富的先例集合,并通过联合评分(语义相似度与模型困惑度)进行排序,以最大化困惑度的减少。其次,测试时经验内化(TEI)作为测试时的学习机制,通过更新轻量级适配器来内化解决方案模式,并将其作为后续推理的先验知识。实验结果表明,PIR在数学推理、科学问答和代码生成任务中均能有效缩短推理路径,同时保持或提升最终准确性,实现了优异的准确率-效率权衡。

AI 推荐理由

论文提出基于先例的推理机制,涉及记忆利用以优化推理过程,属于Agent Memory相关研究。

论文信息
作者 Qianyue Wang, Jinwu Hu, Huanxiang Lin, Bolin Chen, Zhiquan Wen et al.
发布日期 2026-02-16
arXiv ID 2602.14451
相关性评分 7/10 (相关)