代理强化学习中推理与工具使用的竞争：从量化干扰到解耦调优

Agentic RL Reasoning-Tool Interference Parameter Decoupling LoRA

摘要

代理强化学习（ARL）旨在训练大模型交替进行推理与工具执行以解决复杂任务。现有方法通常共享参数联合训练，假设能提升性能。本文通过线性效应归因系统（LEAS）量化证实，推理与工具使用行为常导致梯度方向错位，产生训练干扰。为此，提出解耦动作推理调优（DART）框架，利用独立低秩适配模块显式解耦两者的参数更新。实验表明，DART 显著优于基线方法，平均提升 6.35%，且在单模型下达到了多智能体系统的性能水平。

AI 推荐理由

论文核心研究推理与工具使用的干扰机制及解耦优化，直接针对推理能力。

研究机构

中国科学院自动化研究所

论文信息

作者 Yu Li, Mingyang Yi, Xiuyu Li, Ju Fan, Fuxin Jiang et al.

发布日期 2026-02-01

arXiv ID 2602.00994