Tool Use Entropy Reduction Reinforcement Learning LLM Agents
摘要

基于大语言模型的智能体在数学推理等任务中表现优异,但在长轨迹中常产生过多低质工具调用,增加延迟并降低性能。本文通过基于熵的试点实验,发现熵减与高质量工具调用呈强正相关。据此,作者提出将熵减作为监督信号,设计了两种奖励策略:稀疏结果奖励提供轨迹级指导以提升效率,密集过程奖励提供细粒度监督以增强性能。实验表明,前者减少 72.07% 的工具调用,后者提升 22.27% 的性能,证实熵减是优化工具使用行为的关键机制。

AI 推荐理由

论文核心研究利用熵减优化 LLM Agent 的工具调用行为,直接针对技能学习中的工具使用效率与质量。

研究机构
复旦大学 爱丁堡大学 南方科技大学 牛津大学
论文信息
作者 Zeping Li, Hongru Wang, Yiwen Zhao, Guanhua Chen, Yixia Li et al.
发布日期 2026-02-02
arXiv ID 2602.02050
相关性评分 9/10 (高度相关)