快速与慢速思考：面向LLM代理的步骤级认知深度自适应

LLM Agent Cognitive Depth Adaptation ACT-R Theory Multi-step Decision Making

摘要

大型语言模型（LLMs）越来越多地被部署为自主代理，用于多轮决策任务。然而，当前代理通常依赖于固定的认知模式：非思考模型生成即时响应，而思考模型则进行统一的深度推理。这种刚性对于长期任务效率低下，因为每一步的认知需求差异较大，有些需要战略规划，而有些只需常规执行。本文引入CogRouter框架，训练代理在每一步动态调整认知深度。基于ACT-R理论，设计了从本能反应到战略规划的四个层次认知级别。两阶段训练方法包括认知感知监督微调（CoSFT）以建立稳定的层级特定模式，以及认知感知策略优化（CoPO），通过置信度感知优势重新加权实现步骤级信用分配。关键见解是适当的认知深度应最大化结果动作的置信度。在ALFWorld和ScienceWorld上的实验表明，CogRouter在效率方面达到最先进的性能。使用Qwen2.5-7B时，其成功率达到82.3%，优于GPT-4o、OpenAI-o3和GRPO，同时使用的token减少了62%。

AI 推荐理由

论文提出动态调整认知深度的框架，与Agent Memory机制相关，但非唯一主题。

论文信息

作者 Ruihan Yang, Fanghua Ye, Xiang We, Ruoqing Zhao, Kang Luo et al.

发布日期 2026-02-13

arXiv ID 2602.12662