摘要
代理强化学习(ARL)旨在训练大模型交替进行推理与工具执行以解决复杂任务。现有方法通常共享参数联合训练,假设能提升性能。本文通过线性效应归因系统(LEAS)量化证实,推理与工具使用行为常导致梯度方向错位,产生训练干扰。为此,提出解耦动作推理调优(DART)框架,利用独立低秩适配模块显式解耦两者的参数更新。实验表明,DART 显著优于基线方法,平均提升 6.35%,且在单模型下达到了多智能体系统的性能水平。
AI 推荐理由
论文核心研究推理与工具使用的干扰机制及解耦优化,直接针对推理能力。
研究机构
中国科学院自动化研究所
论文信息