OmniOPSD：面向情感计算的基于原理特权的同策略自蒸馏框架

Multimodal LLM Self-Distillation Affective Computing Chain-of-Thought

摘要

多模态大语言模型在复杂推理任务中常受限于奖励稀疏问题，尤其在涉及人类状态、情感等主观因素的场景中，高质量思维链标注获取困难。直接使用专家标签进行监督微调可能导致捷径学习且缺乏透明度。为此，本文提出 OmniOPSD 框架，将前沿模型生成的原理作为训练时的特权证据而非模仿目标。该方法通过本地教师模型提供密集的 token 级监督，使学生模型在其自身轨迹分布上学习，无需在推理时依赖标签或闭源模型。实验表明该方法在 MER-UniBench 上取得了最先进性能。

AI 推荐理由

论文针对复杂推理任务中的奖励稀疏问题，利用思维链（CoT）作为特权证据进行自蒸馏，核心在于提升推理能力。

研究机构

深圳大学广东工业大学人工智能与数字经济实验班上海交通大学清华大学中国科学技术大学华为深圳技术大学同济大学

论文信息

作者 Zebang Cheng, Shuimu Chen, Boxue Yang, Yuanshen Guan, Jingyi Chen et al.

发布日期 2026-06-14

arXiv ID 2606.15920