Imitation Learning Human-Agent Interaction Skill Acquisition Policy Optimization
摘要

模仿学习虽在多项任务中表现优异,但现有工作多依赖专家的大规模演示及严密监控,普通人难以参与。为此,本文提出交互式策略重构与训练(InterPReT)框架,利用用户指令持续更新策略结构并优化参数以适配用户演示。该方法支持终端用户交互式地提供指导与演示、监控性能并审查决策策略。针对赛车游戏驾驶的用戶研究(N=34)表明,相比通用基线,本方法在由普通人负责演示与终止判断时,能生成更鲁棒的策略且不损害可用性,显著降低了非技术背景用户训练可靠策略的门槛。

AI 推荐理由

论文核心在于让非专家用户通过交互演示教会 Agent 新技能(如驾驶),直接对应技能学习与获取。

研究机构
卡内基梅隆大学
论文信息
作者 Feiyu Gavin Zhu, Jean Oh, Reid Simmons
发布日期 2026-02-04
arXiv ID 2602.04213
相关性评分 9/10 (高度相关)