摘要
仅解码器的大语言模型越来越多地被用作行为编码器以进行用户表示学习,但注意力掩码对用户嵌入质量的影响仍鲜有研究。本文在统一的对比学习框架内,系统研究了因果、混合和双向注意力掩码,并基于大规模真实世界支付宝数据进行训练,该数据集整合了长期异构用户行为。为改善从因果到双向注意力的训练动态,我们提出了一种梯度引导的软掩码方法,在线性调度器之前应用梯度预热,逐步开启未来注意力。在涵盖预测、偏好和营销敏感性任务的9个工业用户认知基准上评估,我们的方法相比因果、混合和仅调度器的基线,表现出更稳定的训练过程和更高质量的双向表示,同时保持与解码器预训练的兼容性。总体而言,我们的发现突出了掩码设计和训练过渡在适应仅解码器LLM进行有效用户表示学习中的重要性。
AI 推荐理由
论文探讨了注意力掩码对用户表示学习的影响,与Agent Memory中的表示学习相关。
论文信息