Role-playing Cognitive Simulation Reinforcement Learning Reasoning Traces
摘要

大语言模型角色扮演在陪伴、内容创作等应用中至关重要,但模拟行为背后的内在思维仍是挑战。现有研究缺乏高质量推理轨迹数据及符合人类偏好的奖励信号。本文提出 HER 框架,引入区分角色第一人称与模型第三人称的双层思维机制。通过逆向工程构建推理增强数据,并设计人类对齐原则与奖励模型,基于 Qwen3-32B 利用监督学习与强化学习进行训练。实验表明,该模型在 CoSER 和 Minimax 基准上显著优于基线,有效提升了认知级角色模拟能力。

AI 推荐理由

论文核心提出双层思维机制,旨在解决角色扮演的认知推理与内在思维模拟问题。

研究机构
复旦大学 MiniMax
论文信息
作者 Chengyu Du, Xintao Wang, Aili Chen, Weiyuan Li, Rui Xu et al.
发布日期 2026-01-29
arXiv ID 2601.21459
相关性评分 9/10 (高度相关)