摘要
长期任务推理是自主代理的关键挑战,但现有基准仅评估单个任务。实际组织工作需要管理多个并发的长期任务,涉及交错、依赖和重新优先级。本文提出多时间跨度任务环境(MHTEs),要求在持续执行上下文中协调数十个交错任务(45+,500-1500+步骤)。我们识别出四种导致基线CUA完成率从16.7%下降到8.7%的失败模式,并提出CorpGen框架,通过分层规划、子代理隔离、分级记忆(工作、结构化、语义)和自适应摘要解决这些问题。CorpGen通过具有持久身份和现实日程的数字员工模拟企业环境,在OSWorld Office上实现比基线3.5倍的性能提升。
AI 推荐理由
论文核心研究多时间跨度任务环境中的记忆机制与架构设计,明确涉及Memory相关问题。
论文信息