摘要
本文提出了一种模块化双智能体仿真框架,用于评估对话式购物助手架构。该框架将配置有人设、任务和耐心值的独立买家智能体,与集成真实电商搜索 API 的可替换响应者智能体配对。通过在相同场景下固定买家智能体,实现了对不同响应者设计的受控比较。基于 14 类人设的 2011 次对话,研究得出四个实证结论:首先,滚动窗口记忆在所有质量指标上均优于意图提取记忆,且查询速度快 35%;其次,通过对响应者版本的系统故障分析进行针对性修复,使失败率降低了 62%;再次,更换底层大模型会导致性能微调下降;最后,揭示了前沿大模型评判标准之间的系统性哲学分歧。
AI 推荐理由
论文核心发现之一是滚动窗口记忆机制在各项指标上优于意图提取记忆,直接对比了不同记忆架构的效果。
研究机构
eBay Inc.
论文信息