Test-Time Scaling Agent Safety Simulation Risk-Aware Planning
摘要

当前测试时扩展技术在代理场景中因动作不可逆且成本高而受限。本文提出 ARTIS 框架,通过在真实执行前进行模拟交互,将探索与承诺解耦,从而在不增加环境风险的前提下扩展推理计算以提升动作可靠性。针对普通模拟器难以捕捉高风险失败模式的问题,引入了强调失败诱导动作保真度的风险感知工具模拟器。实验表明,迭代模拟显著提高了多步代理任务的可靠性,且风险感知机制对持续获得增益至关重要。

AI 推荐理由

提出通过迭代模拟进行测试时扩展,核心在于行动前的探索与规划,显著提升代理可靠性。

研究机构
华为技术有限公司, 华为诺亚方舟实验室
论文信息
作者 Xingshan Zeng, Lingzhi Wang, Weiwen Liu, Liangyou Li, Yasheng Wang et al.
发布日期 2026-02-02
arXiv ID 2602.01709
相关性评分 9/10 (高度相关)