摘要
大型语言模型(LLMs)越来越多地被部署为自主代理,用于多轮决策任务。然而,当前代理通常依赖于固定的认知模式:非思考模型生成即时响应,而思考模型则进行统一的深度推理。这种刚性对于长期任务效率低下,因为每一步的认知需求差异较大,有些需要战略规划,而有些只需常规执行。本文引入CogRouter框架,训练代理在每一步动态调整认知深度。基于ACT-R理论,设计了从本能反应到战略规划的四个层次认知级别。两阶段训练方法包括认知感知监督微调(CoSFT)以建立稳定的层级特定模式,以及认知感知策略优化(CoPO),通过置信度感知优势重新加权实现步骤级信用分配。关键见解是适当的认知深度应最大化结果动作的置信度。在ALFWorld和ScienceWorld上的实验表明,CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时,其成功率达到82.3%,优于GPT-4o、OpenAI-o3和GRPO,同时使用的token减少了62%。
AI 推荐理由
论文提出动态调整认知深度的框架,与Agent Memory机制相关,但非唯一主题。
论文信息