Knowledge Distillation Agentic Reasoning Privileged Information Reinforcement Learning
摘要

训练时的特权信息能提升语言模型在长程任务中的表现,但将其迁移至无需该信息的推理策略仍是挑战。本文针对多轮智能体环境,提出π-Distill 联合师生目标及在线自蒸馏(OPSD)方法,利用仅含动作轨迹的特权信息进行蒸馏。实验表明,这两种算法在多个基准上优于依赖完整思维链监督的传统方法,有效实现了从可见行为到隐藏推理过程的能力迁移。

AI 推荐理由

论文核心解决多轮智能体中隐藏推理过程的蒸馏难题,通过新算法有效迁移内部推理能力。

研究机构
ServiceNow, Quebec Université de Montréal McGill University HEC Montréal
论文信息
作者 Emiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin et al.
发布日期 2026-02-04
arXiv ID 2602.04942
相关性评分 9/10 (高度相关)