LLM Agent Cognitive Depth Adaptation ACT-R Theory Multi-step Decision Making
摘要

大型语言模型(LLMs)越来越多地被部署为自主代理,用于多轮决策任务。然而,当前代理通常依赖于固定的认知模式:非思考模型生成即时响应,而思考模型则进行统一的深度推理。这种刚性对于长期任务效率低下,因为每一步的认知需求差异较大,有些需要战略规划,而有些只需常规执行。本文引入CogRouter框架,训练代理在每一步动态调整认知深度。基于ACT-R理论,设计了从本能反应到战略规划的四个层次认知级别。两阶段训练方法包括认知感知监督微调(CoSFT)以建立稳定的层级特定模式,以及认知感知策略优化(CoPO),通过置信度感知优势重新加权实现步骤级信用分配。关键见解是适当的认知深度应最大化结果动作的置信度。在ALFWorld和ScienceWorld上的实验表明,CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时,其成功率达到82.3%,优于GPT-4o、OpenAI-o3和GRPO,同时使用的token减少了62%。

AI 推荐理由

论文提出动态调整认知深度的框架,与Agent Memory机制相关,但非唯一主题。

论文信息
作者 Ruihan Yang, Fanghua Ye, Xiang We, Ruoqing Zhao, Kang Luo et al.
发布日期 2026-02-13
arXiv ID 2602.12662
相关性评分 7/10 (相关)