Agent Memory LLM Internal Representation Goal-Directedness Behavioral Evaluation
摘要

理解代理的目标有助于解释和预测其行为,但目前尚无可靠的方法来为代理系统分配目标。本文提出了一种结合行为评估与基于可解释性分析的模型内部表征的框架,用于评估目标导向性。以一个在二维网格世界中向目标状态移动的语言模型代理为例,从行为上评估其在不同网格大小、障碍密度和目标结构下的表现,发现其性能随任务难度增加而提升,并且对保持难度不变的变换和复杂目标结构具有鲁棒性。随后使用探针方法解码代理的环境状态和多步动作计划的内部表征,发现该代理非线性地编码了环境的粗略空间地图,保留了与其位置和目标位置相关的近似任务相关线索;其行为与这些内部表征基本一致;推理过程则重新组织了这些信息,从更广泛的环境结构线索转向支持即时动作选择的信息。研究结果表明,除了行为评估外,还需要进行内省分析,以了解代理如何表征和追求其目标。

AI 推荐理由

论文探讨了LLM代理的目标导向性,涉及其内部表示和记忆机制,但非唯一主题。

论文信息
作者 Raghu Arghal, Fade Chen, Niall Dalton, Evgenii Kortukov, Calum McNamara et al.
发布日期 2026-02-09
arXiv ID 2602.08964
相关性评分 7/10 (相关)