摘要
随着大语言模型(LLMs)越来越多地处理复杂推理任务,测试时扩展对于增强能力变得至关重要。然而,在频繁调用工具的智能体场景中,传统的基于生成长度的定义失效:工具延迟使推理时间与生成长度脱钩。我们提出Timely Machine,重新定义测试时为墙钟时间,模型根据时间预算动态调整策略。我们引入了Timely-Eval基准,涵盖高频工具调用、低频工具调用和时间受限推理。通过改变工具延迟,我们发现较小模型在快速反馈下通过更多交互表现优异,而较大模型则在高延迟环境下凭借更高质量的交互占据优势。此外,现有模型无法适应时间预算下的推理。我们提出Timely-RL以弥补这一差距。经过冷启动监督微调后,我们使用强化学习提升时间规划能力。Timely-RL提高了对时间预算的感知,并在Timely-Eval中持续提升性能。我们希望本研究为智能体时代测试时扩展提供新的视角。
AI 推荐理由
论文涉及Agent在时间预算下的策略调整,与记忆机制相关但非核心。
论文信息