Agent Memory 多代理系统 科学推理 置信度控制 动态计算分配
摘要

大型语言模型在专家级科学推理任务上仍面临挑战,尤其是在如《人类最后考试》(HLE)等基准测试中,受限于固定的工具流程、脆弱的多代理协调以及低效的测试时扩展能力。本文提出ReThinker,一种基于置信度的智能体框架,通过分阶段的Solver-Critic-Selector架构协调检索、工具使用和多代理推理。不同于固定流程,ReThinker根据模型置信度动态分配计算资源,实现自适应工具调用、引导性的多维反思以及稳健的置信度加权选择。为支持无需人工标注的可扩展训练,我们进一步提出反向数据合成管道和自适应轨迹重用策略,将成功的推理过程转化为高质量的监督信号。实验表明,ReThinker在HLE、GAIA和XBench等基准上均优于现有最先进的基础模型和深度研究系统,在专家级推理任务中取得最先进结果。

AI 推荐理由

论文涉及基于置信度的动态计算分配和多代理反思,与Agent Memory相关但非核心主题。

论文信息
作者 Zhentao Tang, Yuqi Cui, Shixiong Kai, Wenqian Zhao, Ke Ye et al.
发布日期 2026-02-04
arXiv ID 2602.04496
相关性评分 7/10 (相关)