结构化自一致性：LLM 在 VirtualHome 上的多任务评估

Embodied AI Task Planning Structured Generation VirtualHome

摘要

具身智能要求代理在模拟环境中理解目标、规划动作并执行任务。本文利用具身代理接口框架，在 VirtualHome 基准上全面评估了大语言模型。研究对比了两种 7B 参数模型在目标解释、动作排序、子目标分解及转移建模四项核心任务中的表现。作者提出“结构化自一致性”解码策略，通过领域特定的投票机制提升结构化生成质量。实验表明该策略显著增强性能，揭示了不同模型在分层规划与动作级任务中的互补优势，为具身智能系统发展提供洞察。

AI 推荐理由

论文核心评估目标解释、动作排序及子目标分解，并提出结构化自一致性策略优化分层规划。

研究机构

HsuIQ/SSC

论文信息

作者 Jiaqi Xu, Tao Huang, Kai Zhang

发布日期 2026-01-31

arXiv ID 2602.00611