摘要
测试时扩展已成为提升神经网络模型性能和可靠性的标准方法。然而,其在智能体执行多步骤任务时的行为仍不明确:每一步的小误差可能在长期任务中累积;我们发现简单地均匀增加采样策略会带来边际效益递减。本文提出CATTS,一种用于动态分配多步骤智能体计算资源的简单技术。我们首先对网络代理的推理时扩展进行了实证研究,发现均匀增加每步计算在长周期环境中很快饱和。随后,我们探讨了更强的聚合策略,包括基于LLM的仲裁者,其表现优于简单投票,但可能推翻高共识决策。我们证明,从智能体自身投票分布中得出的不确定性统计(熵和top-1/top-2边缘)与后续成功相关,并为动态计算分配提供了实用信号。基于这些发现,我们引入了置信度感知测试时扩展(CATTS),它仅在决策存在真正争议时使用投票派生的不确定性来分配计算资源。CATTS在WebArena-Lite和GoBrowse上相比React提升了高达9.1%的性能,同时使用的token数量比均匀扩展减少了2.3倍,实现了效率提升和可解释的决策规则。
AI 推荐理由
论文涉及Agent在推理时的计算分配与不确定性评估,与Memory相关但非核心主题。
论文信息