摘要
多模态大语言模型在复杂推理任务中常受限于奖励稀疏问题,尤其在涉及人类状态、情感等主观因素的场景中,高质量思维链标注获取困难。直接使用专家标签进行监督微调可能导致捷径学习且缺乏透明度。为此,本文提出 OmniOPSD 框架,将前沿模型生成的原理作为训练时的特权证据而非模仿目标。该方法通过本地教师模型提供密集的 token 级监督,使学生模型在其自身轨迹分布上学习,无需在推理时依赖标签或闭源模型。实验表明该方法在 MER-UniBench 上取得了最先进性能。
AI 推荐理由
论文针对复杂推理任务中的奖励稀疏问题,利用思维链(CoT)作为特权证据进行自蒸馏,核心在于提升推理能力。
研究机构
深圳大学
广东工业大学人工智能与数字经济实验班
上海交通大学
清华大学
中国科学技术大学
华为
深圳技术大学
同济大学
论文信息