Agent Memory Multimodal Reasoning Canvas-based System State Management
摘要

尽管Chain-of-Thought(CoT)提示方法显著提升了多模态大语言模型(MLLMs)的推理能力,但仅依赖线性文本序列在复杂任务中存在瓶颈。我们发现,即使引入辅助视觉元素,它们通常也被视为一维、无结构推理链中的静态快照。我们认为现有方法将推理历史视为不可变流:纠正局部错误需要生成冗长的后续修正或重新生成整个上下文,迫使模型隐式维护和跟踪状态更新,显著增加计算开销和认知负担。这一限制在高维领域(如几何和SVG设计)尤为明显,因为CoT的文本表达缺乏显式的视觉指导,进一步限制了推理精度。为弥补这一差距,我们提出了Canvas-of-Thought(Canvas-CoT)。通过利用HTML Canvas作为外部推理基板,Canvas-CoT使模型能够执行基于DOM的原子CRUD操作。该架构允许在不破坏周围上下文的情况下进行原地状态修订,使模型能够显式维护“真实状态”。此外,我们集成了基于渲染的批评循环,作为硬约束验证器,提供显式视觉反馈以解决难以仅用文本描述的复杂任务。在VCode、RBench-V和MathVista上的大量实验表明,Canvas-CoT显著优于现有基线,确立了一种新的上下文高效多模态推理范式。

AI 推荐理由

论文提出Canvas-CoT,通过外部HTML Canvas实现状态维护与更新,直接涉及Agent Memory机制。

论文信息
作者 Lingzhuang Sun, Yuxia Zhu, Ruitong Liu, Hao Liang, Zheng Sun et al.
发布日期 2026-02-11
arXiv ID 2602.10494
相关性评分 8/10 (高度相关)