划分、审议、决策：一种用于细粒度第一人称动作识别的多智能体框架

Multi-Agent Zero-Shot Learning Action Recognition Deliberation

摘要

针对视觉语言模型在第一人称视频中细粒度动作识别的挑战，本文提出“划分、审议、决策”零样本多智能体框架。该框架完全本地运行且无需微调：首先由协调器分割视频并生成候选标签；随后异构专家模型群进行包含同行咨询的结构化审议；最后通过博达计数聚合排名并重新排序。实验表明，该方法利用不相关的模型先验显著提升了零样本识别性能。

AI 推荐理由

论文核心在于多智能体通过结构化审议（deliberation）和证据聚合进行细粒度推理决策。

研究机构

Faculty of Engineering, Free University of Bozen-Bolzano, Bolzano, Italy

论文信息

作者 Alessandro Sottovia, Alessandro Torcinovich, Oswald Lanz

发布日期 2026-06-16

arXiv ID 2606.17627