摘要
工作记忆是智能行为的核心组成部分,为维持和更新任务相关信息提供动态的工作空间。近期的研究利用n-back任务来探测大型语言模型中的类似工作记忆行为,但尚不清楚当信息以视觉形式而非文本形式呈现时,是否会产生相似的计算过程。本文在控制条件下对Qwen2.5和Qwen2.5-VL模型进行了空间n-back任务测试,分别以文本渲染和图像渲染的网格形式呈现。结果显示,无论何种条件,模型在处理文本时的准确率和d'值均显著高于视觉输入。通过逐次试验的对数概率分析发现,名义上的2/3-back任务往往未能反映指定的延迟,而是与最近锁定比较对齐。此外,网格大小的变化影响了刺激流中的重复结构,从而改变了干扰和错误模式。这些结果促使我们对多模态工作记忆进行计算敏感的解释。
AI 推荐理由
论文直接探讨了视觉语言模型中的工作记忆机制,使用n-back任务进行评估,属于Agent Memory核心研究。
论文信息