利用过程奖励扩展多智能体系统

Multiagent Systems Process Rewards Self-Improvement AI Feedback Fine-tuning

摘要

多智能体系统虽能通过专业化处理复杂任务，但同时微调多个智能体面临信用分配和样本效率两大挑战。本文提出利用人工智能反馈生成的每动作过程奖励（MAPPA）来微调多智能体系统。该方法通过将信用分配至单个智能体动作而非仅在任务完成时，实现了无真实标签的细粒度监督，并从每次 rollout 中提取最大训练信号。在数学竞赛及工具增强数据分析任务上的实验表明，该方法显著提升了性能，验证了每动作监督在跨领域多智能体系统中的有效性，迈出了在极少人工监督下扩展复杂长程任务多智能体系统的第一步。

AI 推荐理由

论文提出基于过程奖励的微调方法，实现多智能体系统的自我改进与扩展，属核心进化研究。

研究机构

Yale University University of Chicago

论文信息

作者 Ed Li, Junyu Ren, Cat Yan

发布日期 2026-01-30

arXiv ID 2601.23228