摘要
大型语言模型已推动了网络代理的发展,但当前代理缺乏个性化能力。由于用户很少明确说明其意图的所有细节,实用的网络代理必须能够通过推断用户偏好和上下文来解释模糊查询。为了解决这一挑战,我们提出了Persona2Web,这是首个在真实开放网络上评估个性化网络代理的基准测试,基于澄清以实现个性化的原理,要求代理基于用户历史而非显式指令解决模糊性。Persona2Web包含:(1) 长时间跨度内隐式揭示偏好的用户历史,(2) 需要代理推断隐式用户偏好的模糊查询,以及(3) 一种支持细粒度个性化评估的推理感知评估框架。我们在多种代理架构、主干模型、历史访问方案和不同模糊程度的查询上进行了广泛实验,揭示了个性化网络代理行为中的关键挑战。为确保可重复性,我们的代码和数据集已在https://anonymous.4open.science/r/Persona2Web-73E8公开。
AI 推荐理由
论文涉及基于用户历史的个性化代理,与Agent Memory相关但非唯一主题。
论文信息