Multiagent Systems Process Rewards Self-Improvement AI Feedback Fine-tuning
摘要

多智能体系统虽能通过专业化处理复杂任务,但同时微调多个智能体面临信用分配和样本效率两大挑战。本文提出利用人工智能反馈生成的每动作过程奖励(MAPPA)来微调多智能体系统。该方法通过将信用分配至单个智能体动作而非仅在任务完成时,实现了无真实标签的细粒度监督,并从每次 rollout 中提取最大训练信号。在数学竞赛及工具增强数据分析任务上的实验表明,该方法显著提升了性能,验证了每动作监督在跨领域多智能体系统中的有效性,迈出了在极少人工监督下扩展复杂长程任务多智能体系统的第一步。

AI 推荐理由

论文提出基于过程奖励的微调方法,实现多智能体系统的自我改进与扩展,属核心进化研究。

研究机构
Yale University University of Chicago
论文信息
作者 Ed Li, Junyu Ren, Cat Yan
发布日期 2026-01-30
arXiv ID 2601.23228
相关性评分 9/10 (高度相关)