Agent Memory MCTS Meta-Prompting Continuous Learning Reasoning
摘要

推理时的扩展策略,特别是蒙特卡洛树搜索(MCTS),显著增强了大语言模型(LLMs)的推理能力。然而,当前方法主要为无状态,每次问题实例后丢弃成功推理模式,无法模仿人类问题解决中经验积累的特点。为弥补这一差距,我们引入Empirical-MCTS,一种双循环框架,将无状态搜索转化为连续、非参数化的学习过程。该框架通过两种新机制统一局部探索与全局记忆优化:成对经验进化元提示(PE-EMP)和记忆优化智能体。PE-EMP在局部搜索中作为反射优化器,利用成对反馈动态合成自适应标准并实时演化元提示(系统提示)。同时,记忆优化智能体管理一个全局存储库作为动态策略先验,使用原子操作跨问题提炼高质量见解。在复杂推理基准测试(包括AIME25、ARC-AGI-2和MathArena Apex)上的广泛评估表明,Empirical-MCTS显著优于无状态MCTS策略和独立经验驱动的智能体。这些结果强调了结构化搜索与经验积累相结合对于掌握复杂、开放性推理任务的关键必要性。

AI 推荐理由

论文核心提出Empirical-MCTS框架,明确涉及记忆优化机制与全局经验积累,属于Agent Memory核心研究。

论文信息
作者 Hao Lu, Haoyuan Huang, Yulin Zhou, Chen Li, Ningxin Zhu
发布日期 2026-02-04
arXiv ID 2602.04248
相关性评分 9/10 (高度相关)