视觉问答 代理系统 强化学习 上下文理解 澄清机制
摘要

现实中的视觉问答(VQA)通常依赖于上下文:图像-问题对可能欠规范,使得正确答案依赖于图像中不可见的外部信息。在这种情况下,直接回答可能导致自信但错误的预测。本文提出CoA(Clarify-or-Answer),一种可选择提问或回答的代理模型,分别建模是否需要提问以及需要提问什么。CoA首先判断是否需要澄清;如果需要,则生成一个聚焦的问题,并结合响应生成最终答案。我们引入了CONTEXTCLARIFY数据集,包含一组模糊的VQA问题和一组非模糊的对比问题。此外,我们提出了GRPO-CR(澄清推理),一种基于强化学习的方法,通过多个奖励信号优化澄清问题的生成,以生成结构良好、聚焦且能解决歧义的非平凡问题。在三个VLLMs和三个数据集上,CoA在模块级和系统级均取得了一致的改进,端到端VQA准确率平均提升了+15.3个百分点(83%)。

AI 推荐理由

论文涉及Agent在VQA任务中通过澄清问题获取外部信息,与记忆机制相关但非核心。

论文信息
作者 Zongwan Cao, Bingbing Wen, Lucy Lu Wang
发布日期 2026-01-23
arXiv ID 2601.16400
相关性评分 6/10 (相关)