摘要
训练时的特权信息能提升语言模型在长程任务中的表现,但将其迁移至无需该信息的推理策略仍是挑战。本文针对多轮智能体环境,提出π-Distill 联合师生目标及在线自蒸馏(OPSD)方法,利用仅含动作轨迹的特权信息进行蒸馏。实验表明,这两种算法在多个基准上优于依赖完整思维链监督的传统方法,有效实现了从可见行为到隐藏推理过程的能力迁移。
AI 推荐理由
论文核心解决多轮智能体中隐藏推理过程的蒸馏难题,通过新算法有效迁移内部推理能力。
研究机构
ServiceNow, Quebec
Université de Montréal
McGill University
HEC Montréal
论文信息