Multi-Agent Zero-Shot Learning Action Recognition Deliberation
摘要

针对视觉语言模型在第一人称视频中细粒度动作识别的挑战,本文提出“划分、审议、决策”零样本多智能体框架。该框架完全本地运行且无需微调:首先由协调器分割视频并生成候选标签;随后异构专家模型群进行包含同行咨询的结构化审议;最后通过博达计数聚合排名并重新排序。实验表明,该方法利用不相关的模型先验显著提升了零样本识别性能。

AI 推荐理由

论文核心在于多智能体通过结构化审议(deliberation)和证据聚合进行细粒度推理决策。

研究机构
Faculty of Engineering, Free University of Bozen-Bolzano, Bolzano, Italy
论文信息
作者 Alessandro Sottovia, Alessandro Torcinovich, Oswald Lanz
发布日期 2026-06-16
arXiv ID 2606.17627
相关性评分 8/10 (高度相关)