摘要
计算机使用代理在噪声感知、多窗口上下文和动态环境状态中执行长期任务。现有方法如基于强化学习的规划器或轨迹检索,往往偏离用户意图并重复解决常规子问题,导致误差累积和效率低下。本文提出IntentCUA,一种多代理计算机使用框架,通过意图对齐的计划记忆稳定长期执行。规划器、计划优化器和批评者通过共享内存协作,将原始交互轨迹抽象为多视角意图表示和可重用技能。运行时,意图原型检索子组对齐的技能并注入部分计划,减少冗余重新规划并缓解桌面应用中的误差传播。端到端评估显示,IntentCUA的任务成功率为74.83%,步骤效率比为0.91,优于基于强化学习和轨迹中心的基线方法。消融实验表明,多视角意图抽象和共享计划记忆共同提升了执行稳定性,合作多代理循环在长期任务中效果最佳。这些结果突显了系统级意图抽象和基于记忆的协调对于大型动态环境中可靠且高效的桌面自动化的重要性。
AI 推荐理由
论文核心围绕意图对齐的计划记忆机制,明确涉及Agent Memory的设计与应用。
论文信息