摘要
现有图像编辑方法在处理复杂人机交互(HOI)时表现不佳。为此,本文引入 HOI-Edit 基准及自动化评估指标 HOI-Eval。研究发现图像到视频(I2V)模型因其时序生成能力,能提供“失败过程回放”以诊断错误。基于此,作者提出 SCPE,一种新颖的代理自校正框架。该框架通过迭代优化提示词约束 I2V 生成,利用自我反思机制修正错误,最终提取帧作为编辑结果。实验表明,SCPE 在交互性能上可与最先进模型媲美。
AI 推荐理由
论文提出代理自校正框架,利用失败回放进行迭代反思与修正,核心契合自我进化主题。
研究机构
北京大学计算机学院
论文信息