重新思考熵在优化大语言模型 Agent 工具使用行为中的作用

Tool Use Entropy Reduction Reinforcement Learning LLM Agents

摘要

基于大语言模型的智能体在数学推理等任务中表现优异，但在长轨迹中常产生过多低质工具调用，增加延迟并降低性能。本文通过基于熵的试点实验，发现熵减与高质量工具调用呈强正相关。据此，作者提出将熵减作为监督信号，设计了两种奖励策略：稀疏结果奖励提供轨迹级指导以提升效率，密集过程奖励提供细粒度监督以增强性能。实验表明，前者减少 72.07% 的工具调用，后者提升 22.27% 的性能，证实熵减是优化工具使用行为的关键机制。

AI 推荐理由

论文核心研究利用熵减优化 LLM Agent 的工具调用行为，直接针对技能学习中的工具使用效率与质量。

研究机构

复旦大学爱丁堡大学南方科技大学牛津大学

论文信息

作者 Zeping Li, Hongru Wang, Yiwen Zhao, Guanhua Chen, Yixia Li et al.

发布日期 2026-02-02

arXiv ID 2602.02050