摘要
当前测试时扩展技术在代理场景中因动作不可逆且成本高而受限。本文提出 ARTIS 框架,通过在真实执行前进行模拟交互,将探索与承诺解耦,从而在不增加环境风险的前提下扩展推理计算以提升动作可靠性。针对普通模拟器难以捕捉高风险失败模式的问题,引入了强调失败诱导动作保真度的风险感知工具模拟器。实验表明,迭代模拟显著提高了多步代理任务的可靠性,且风险感知机制对持续获得增益至关重要。
AI 推荐理由
提出通过迭代模拟进行测试时扩展,核心在于行动前的探索与规划,显著提升代理可靠性。
研究机构
华为技术有限公司, 华为诺亚方舟实验室
论文信息