LLM Agent Benchmark Multi-Tool Integration Error Analysis
摘要

现代分析师代理必须处理复杂的高token输入,包括大量检索文档、工具输出和时间敏感数据。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性,但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为例,引入了一个包含198个生产级加密货币和DeFi查询的分析师对齐基准CryptoAnalystBench,并构建了一个配备相关加密货币和DeFi工具的代理框架,用于生成多个前沿LLM的响应。同时,提出了一套包含引用验证和基于LLM的评分标准的评估流程,涵盖四个用户定义的成功维度:相关性、时间相关性、深度和数据一致性。通过人工标注,开发出七种高级错误类型分类法,这些错误无法通过事实性检查或基于LLM的质量评分可靠捕捉。研究发现,即使在最先进的系统中,这些失败仍然存在,并可能影响高风险决策。基于该分类法,改进了评分标准,使其更准确地捕捉这些错误。虽然评分标准与人工标注者在精确评分上不一致,但它能可靠识别关键失败模式,为研究分析师风格代理的开发者和研究人员提供可扩展的反馈。本文发布CryptoAnalystBench,包含标注查询、评估流程、评分标准和错误分类法,并概述了缓解策略和评估长文本、多工具增强系统的开放挑战。

AI 推荐理由

论文涉及多工具输出的整合,与Agent Memory相关,但非核心研究主题。

论文信息
作者 Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi
发布日期 2026-02-11
arXiv ID 2602.11304
相关性评分 5/10 (一般相关)