摘要
大语言模型角色扮演在陪伴、内容创作等应用中至关重要,但模拟行为背后的内在思维仍是挑战。现有研究缺乏高质量推理轨迹数据及符合人类偏好的奖励信号。本文提出 HER 框架,引入区分角色第一人称与模型第三人称的双层思维机制。通过逆向工程构建推理增强数据,并设计人类对齐原则与奖励模型,基于 Qwen3-32B 利用监督学习与强化学习进行训练。实验表明,该模型在 CoSER 和 Minimax 基准上显著优于基线,有效提升了认知级角色模拟能力。
AI 推荐理由
论文核心提出双层思维机制,旨在解决角色扮演的认知推理与内在思维模拟问题。
研究机构
复旦大学
MiniMax
论文信息