摘要
视觉 - 语言模型在日常视觉任务中进展显著,但在面对全新情境时的视觉推理能力仍显不足,这一能力在经典的 Bongard 问题集中受到严格检验。本文提出一种神经符号方法:针对假设的解题规则,利用大语言模型生成参数化的程序表示,并通过贝叶斯优化进行参数拟合。我们在给定真实规则的分类任务及从零开始求解的任务上评估了该方法,展示了其在复杂视觉推理中的有效性。
AI 推荐理由
论文聚焦视觉推理挑战(Bongard 问题),提出神经符号方法解决逻辑规则归纳,核心在于推理能力。
研究机构
康奈尔大学
上海交通大学
南京工业大学
论文信息