摘要
大型推理模型中冗余推理导致的推断开销严重阻碍了其部署。现有基于强化学习的解决方案难以兼顾简洁性与准确性。本文提出一种多智能体强化学习框架(SCMA),通过分割智能体将推理过程分解为逻辑块,评分智能体量化的各块重要性,从而选择性惩罚冗余部分并保留关键逻辑。实验表明,该方法在显著缩短响应长度的同时提升了准确率,证明了多智能体协同优化能涌现出更强大的推理能力。
AI 推荐理由
论文核心在于优化思维链推理过程,通过多智能体强化学习去除冗余逻辑,提升推理效率与准确率。
研究机构
清华大学计算机科学与技术系
论文信息