Multimodal LLM Self-Distillation Affective Computing Chain-of-Thought
摘要

多模态大语言模型在复杂推理任务中常受限于奖励稀疏问题,尤其在涉及人类状态、情感等主观因素的场景中,高质量思维链标注获取困难。直接使用专家标签进行监督微调可能导致捷径学习且缺乏透明度。为此,本文提出 OmniOPSD 框架,将前沿模型生成的原理作为训练时的特权证据而非模仿目标。该方法通过本地教师模型提供密集的 token 级监督,使学生模型在其自身轨迹分布上学习,无需在推理时依赖标签或闭源模型。实验表明该方法在 MER-UniBench 上取得了最先进性能。

AI 推荐理由

论文针对复杂推理任务中的奖励稀疏问题,利用思维链(CoT)作为特权证据进行自蒸馏,核心在于提升推理能力。

研究机构
深圳大学 广东工业大学人工智能与数字经济实验班 上海交通大学 清华大学 中国科学技术大学 华为 深圳技术大学 同济大学
论文信息
作者 Zebang Cheng, Shuimu Chen, Boxue Yang, Yuanshen Guan, Jingyi Chen et al.
发布日期 2026-06-14
arXiv ID 2606.15920
相关性评分 8/10 (高度相关)