基于多智能体强化学习的思维链自压缩

Chain-of-Thought Multi-Agent Reinforcement Learning Reasoning Efficiency Model Compression

摘要

大型推理模型中冗余推理导致的推断开销严重阻碍了其部署。现有基于强化学习的解决方案难以兼顾简洁性与准确性。本文提出一种多智能体强化学习框架（SCMA），通过分割智能体将推理过程分解为逻辑块，评分智能体量化的各块重要性，从而选择性惩罚冗余部分并保留关键逻辑。实验表明，该方法在显著缩短响应长度的同时提升了准确率，证明了多智能体协同优化能涌现出更强大的推理能力。

AI 推荐理由

论文核心在于优化思维链推理过程，通过多智能体强化学习去除冗余逻辑，提升推理效率与准确率。

研究机构

清华大学计算机科学与技术系

论文信息

作者 Yiqun Chen, Jinyuan Feng, Wei Yang, Meizhi Zhong, Zhengliang Shi et al.

发布日期 2026-01-29

arXiv ID 2601.21919