视觉能替代文本在工作记忆中吗？来自视觉-语言模型中空间n-back任务的证据

working memory vision-language models n-back task multimodal processing

摘要

工作记忆是智能行为的核心组成部分，为维持和更新任务相关信息提供动态的工作空间。近期的研究利用n-back任务来探测大型语言模型中的类似工作记忆行为，但尚不清楚当信息以视觉形式而非文本形式呈现时，是否会产生相似的计算过程。本文在控制条件下对Qwen2.5和Qwen2.5-VL模型进行了空间n-back任务测试，分别以文本渲染和图像渲染的网格形式呈现。结果显示，无论何种条件，模型在处理文本时的准确率和d'值均显著高于视觉输入。通过逐次试验的对数概率分析发现，名义上的2/3-back任务往往未能反映指定的延迟，而是与最近锁定比较对齐。此外，网格大小的变化影响了刺激流中的重复结构，从而改变了干扰和错误模式。这些结果促使我们对多模态工作记忆进行计算敏感的解释。

AI 推荐理由

论文直接探讨了视觉语言模型中的工作记忆机制，使用n-back任务进行评估，属于Agent Memory核心研究。

论文信息

作者 Sichu Liang, Hongyu Zhu, Wenwen Wang, Deyu Zhou

发布日期 2026-02-04

arXiv ID 2602.04355