InterPReT：交互式策略重构与训练实现来自普通人的有效模仿学习

Imitation Learning Human-Agent Interaction Skill Acquisition Policy Optimization

摘要

模仿学习虽在多项任务中表现优异，但现有工作多依赖专家的大规模演示及严密监控，普通人难以参与。为此，本文提出交互式策略重构与训练（InterPReT）框架，利用用户指令持续更新策略结构并优化参数以适配用户演示。该方法支持终端用户交互式地提供指导与演示、监控性能并审查决策策略。针对赛车游戏驾驶的用戶研究（N=34）表明，相比通用基线，本方法在由普通人负责演示与终止判断时，能生成更鲁棒的策略且不损害可用性，显著降低了非技术背景用户训练可靠策略的门槛。

AI 推荐理由

论文核心在于让非专家用户通过交互演示教会 Agent 新技能（如驾驶），直接对应技能学习与获取。

研究机构

卡内基梅隆大学

论文信息

作者 Feiyu Gavin Zhu, Jean Oh, Reid Simmons

发布日期 2026-02-04

arXiv ID 2602.04213