CryptoAnalystBench：多工具长文本LLM分析中的失败案例

摘要

现代分析师代理必须处理复杂的高token输入，包括大量检索文档、工具输出和时间敏感数据。尽管已有研究提出了工具调用基准并探讨了知识增强系统的事实性，但较少研究关注LLM在整合大量动态、结构化和非结构化多工具输出场景下的表现。本文以加密货币领域为例，引入了一个包含198个生产级加密货币和DeFi查询的分析师对齐基准CryptoAnalystBench，并构建了一个配备相关加密货币和DeFi工具的代理框架，用于生成多个前沿LLM的响应。同时，提出了一套包含引用验证和基于LLM的评分标准的评估流程，涵盖四个用户定义的成功维度：相关性、时间相关性、深度和数据一致性。通过人工标注，开发出七种高级错误类型分类法，这些错误无法通过事实性检查或基于LLM的质量评分可靠捕捉。研究发现，即使在最先进的系统中，这些失败仍然存在，并可能影响高风险决策。基于该分类法，改进了评分标准，使其更准确地捕捉这些错误。虽然评分标准与人工标注者在精确评分上不一致，但它能可靠识别关键失败模式，为研究分析师风格代理的开发者和研究人员提供可扩展的反馈。本文发布CryptoAnalystBench，包含标注查询、评估流程、评分标准和错误分类法，并概述了缓解策略和评估长文本、多工具增强系统的开放挑战。

AI 推荐理由

论文涉及多工具输出的整合，与Agent Memory相关，但非核心研究主题。

论文信息

作者 Anushri Eswaran, Oleg Golev, Darshan Tank, Sidhant Rahi, Himanshu Tyagi

发布日期 2026-02-11

arXiv ID 2602.11304