语言模型的特权信息蒸馏

Knowledge Distillation Agentic Reasoning Privileged Information Reinforcement Learning

摘要

训练时的特权信息能提升语言模型在长程任务中的表现，但将其迁移至无需该信息的推理策略仍是挑战。本文针对多轮智能体环境，提出π-Distill 联合师生目标及在线自蒸馏（OPSD）方法，利用仅含动作轨迹的特权信息进行蒸馏。实验表明，这两种算法在多个基准上优于依赖完整思维链监督的传统方法，有效实现了从可见行为到隐藏推理过程的能力迁移。

AI 推荐理由

论文核心解决多轮智能体中隐藏推理过程的蒸馏难题，通过新算法有效迁移内部推理能力。

研究机构

ServiceNow, Quebec Université de Montréal McGill University HEC Montréal

论文信息

作者 Emiliano Penaloza, Dheeraj Vattikonda, Nicolas Gontier, Alexandre Lacoste, Laurent Charlin et al.

发布日期 2026-02-04

arXiv ID 2602.04942