长上下文推理 视觉语言模型 推理效率 光学记忆
摘要

长上下文推理虽增强了大语言模型处理复杂任务的能力,却因计算复杂性引发严重效率瓶颈。现有方法常依赖额外训练或外部模型进行压缩,限制了可扩展性并丢失关键细粒度信息。本文提出 VTC-R1,一种将视觉 - 文本压缩融入推理过程的新范式。该方法将中间推理片段渲染为紧凑图像,作为“光学记忆”迭代反馈给视觉语言模型。基于 OpenR1-Math-220K 构建数据集实现 3.4 倍令牌压缩,并在多个基准测试中显著优于标准长上下文推理,端到端延迟降低 2.7 倍。

AI 推荐理由

论文核心提出视觉 - 文本压缩范式以解决长上下文推理效率瓶颈,直接优化推理过程。

研究机构
中国科学院 清华大学 悉尼大学
论文信息
作者 Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu et al.
发布日期 2026-01-29
arXiv ID 2601.22069
相关性评分 9/10 (高度相关)