VTC-R1：面向高效长上下文推理的视觉 - 文本压缩

长上下文推理视觉语言模型推理效率光学记忆

摘要

长上下文推理虽增强了大语言模型处理复杂任务的能力，却因计算复杂性引发严重效率瓶颈。现有方法常依赖额外训练或外部模型进行压缩，限制了可扩展性并丢失关键细粒度信息。本文提出 VTC-R1，一种将视觉 - 文本压缩融入推理过程的新范式。该方法将中间推理片段渲染为紧凑图像，作为“光学记忆”迭代反馈给视觉语言模型。基于 OpenR1-Math-220K 构建数据集实现 3.4 倍令牌压缩，并在多个基准测试中显著优于标准长上下文推理，端到端延迟降低 2.7 倍。

AI 推荐理由

论文核心提出视觉 - 文本压缩范式以解决长上下文推理效率瓶颈，直接优化推理过程。

研究机构

中国科学院清华大学悉尼大学

论文信息

作者 Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu et al.

发布日期 2026-01-29

arXiv ID 2601.22069