摘要
在多智能体信息检索(IR)流程中,基于LLM的代理通过思维链(Chain-of-Thought, CoT)进行中间推理的交换。当前对CoT的评估主要关注目标任务的准确性,但这一指标无法衡量推理过程本身的质量或实用性。为解决这一局限,本文引入了两个新的度量标准:可重用性和可验证性。通过Thinker-Executor框架将CoT生成与执行解耦,可重用性衡量Executor能否轻松复用Thinker的CoT,而可验证性衡量Executor能否通过CoT匹配Thinker的答案。我们在五个基准测试中评估了四种Thinker模型与十个Executor模型的组合。结果表明,可重用性和可验证性与标准准确性无显著相关性,揭示了当前基于准确性的推理能力排行榜的盲点。令人意外的是,专门用于推理的模型生成的CoT并不比通用LLM(如Llama和Gemma)生成的CoT更具可重用性或可验证性。
AI 推荐理由
论文涉及CoT的可重用性和可验证性,与Agent Memory中的信息传递和存储相关。
论文信息