摘要
近期的基础视频到视频扩散模型在通过修改外观、运动或相机移动来编辑用户提供的视频方面取得了显著成果。然而,现实中的视频编辑通常是一个迭代过程,用户需要在多轮交互中不断优化结果。在这一多轮设置下,当前的视频编辑器难以保持连续编辑之间的跨一致性。本文首次针对多轮视频编辑中的跨一致性问题进行研究,并引入了Memory-V2V框架,该框架通过显式记忆机制增强现有的视频到视频模型。给定一个外部缓存的先前编辑视频库,Memory-V2V采用精确检索和动态标记化策略,使当前编辑步骤基于先前结果进行条件生成。为了进一步减少冗余和计算开销,我们提出了一种可学习的标记压缩器,在DiT主干网络中压缩冗余的条件标记,同时保留关键视觉线索,从而实现整体速度提升30%。我们在具有挑战性的任务(如视频新视角合成和文本条件下的长视频编辑)上验证了Memory-V2V的有效性。大量实验表明,Memory-V2V在最小计算开销下生成的视频显著提高了跨一致性,同时在特定任务性能上与最先进的基线相比保持甚至有所提升。
AI 推荐理由
论文核心提出Memory-V2V框架,明确以Memory机制解决多轮视频编辑中的跨一致性问题。
论文信息