LLM Agent 强化学习 购物助手 对话系统 个性化推荐
摘要

基于大语言模型(LLM)的代理在电子商务购物中日益普及。为了执行全面且符合用户偏好的产品搜索,代理应能够解释个人偏好、进行多轮对话,并最终检索和区分高度相似的产品。然而,现有研究尚未提供一个统一的模拟环境来全面捕捉这些方面,通常仅关注评估基准而缺乏训练支持。本文介绍了ShopSimulator,一个大规模且具有挑战性的中文购物环境。利用ShopSimulator,我们评估了LLM在各种场景下的表现,发现即使性能最好的模型也仅有不到40%的成功率。错误分析表明,代理在长轨迹中难以进行深度搜索和产品选择,无法平衡个性化线索的使用,也无法有效与用户互动。进一步的训练探索为克服这些弱点提供了实用指导,监督微调(SFT)与强化学习(RL)的结合显著提升了性能。

AI 推荐理由

论文涉及LLM Agent在购物助手中的应用,提及对话和个性化偏好,但未明确讨论记忆机制。

论文信息
作者 Pei Wang, Yanan Wu, Xiaoshuai Song, Weixun Wang, Gengru Chen et al.
发布日期 2026-01-26
arXiv ID 2601.18225
相关性评分 5/10 (一般相关)