摘要
长上下文推理虽增强了大语言模型处理复杂任务的能力,却因计算复杂性引发严重效率瓶颈。现有方法常依赖额外训练或外部模型进行压缩,限制了可扩展性并丢失关键细粒度信息。本文提出 VTC-R1,一种将视觉 - 文本压缩融入推理过程的新范式。该方法将中间推理片段渲染为紧凑图像,作为“光学记忆”迭代反馈给视觉语言模型。基于 OpenR1-Math-220K 构建数据集实现 3.4 倍令牌压缩,并在多个基准测试中显著优于标准长上下文推理,端到端延迟降低 2.7 倍。
AI 推荐理由
论文核心提出视觉 - 文本压缩范式以解决长上下文推理效率瓶颈,直接优化推理过程。
研究机构
中国科学院
清华大学
悉尼大学
论文信息