摘要
工作记忆是智能行为的核心组件,为维持和更新任务相关信息提供动态工作空间。近期研究利用 n-back 任务探测大语言模型中的类工作记忆行为,但在视觉 - 语言模型中,当信息以视觉而非文本形式呈现时,是否引发可比计算尚不明确。本文在受控的空间 n-back 任务中评估了 Qwen2.5 和 Qwen2.5-VL 模型,任务分别以文本渲染或图像渲染的网格形式呈现。结果显示,在所有条件下,模型在文本条件下的准确率和 d'显著高于视觉条件。通过逐次试验的对数概率证据分析发现,名义上的 2/3-back 任务往往未能反映指令滞后,而是与基于近因的比较对齐。此外,网格大小改变了刺激流中的近期重复结构,从而影响了干扰和错误模式。这些结果促使我们对多模态工作记忆进行计算敏感的解释。
AI 推荐理由
论文核心研究多模态模型的工作记忆机制,对比视觉与文本编码差异。
研究机构
东南大学
上海交通大学
卡内基梅隆大学
论文信息