摘要
个性化数字健康支持需要对异构生活方式信号进行长期、跨维度的推理,而移动传感和大语言模型(LLMs)的最新进展使这种支持日益可行。然而,由于缺乏系统性基准,当前LLMs在此场景下的能力尚不明确。本文介绍了LifeAgentBench,一个用于长期、跨维度和多用户生活方式健康推理的大规模问答基准,包含22,573个问题,从基本检索到复杂推理均有覆盖。我们发布了一个可扩展的基准构建流程和标准化评估协议,以实现对基于LLM的健康助手的可靠和可扩展评估。随后,我们系统地评估了11种领先的LLMs,并识别出长期聚合和跨维度推理中的关键瓶颈。受这些发现的启发,我们提出了LifeAgent,一种集成多步骤证据检索与确定性聚合的强基线代理,相较于两种广泛使用的基线方法取得了显著改进。案例研究进一步展示了其在现实日常场景中的潜力。该基准公开于https://anonymous.4open.science/r/LifeAgentBench-CE7B。
AI 推荐理由
论文涉及LLM在健康助手中的长期推理,与记忆相关但非核心主题。
论文信息