ARTIS：基于迭代模拟的代理风险感知测试时扩展

Test-Time Scaling Agent Safety Simulation Risk-Aware Planning

摘要

当前测试时扩展技术在代理场景中因动作不可逆且成本高而受限。本文提出 ARTIS 框架，通过在真实执行前进行模拟交互，将探索与承诺解耦，从而在不增加环境风险的前提下扩展推理计算以提升动作可靠性。针对普通模拟器难以捕捉高风险失败模式的问题，引入了强调失败诱导动作保真度的风险感知工具模拟器。实验表明，迭代模拟显著提高了多步代理任务的可靠性，且风险感知机制对持续获得增益至关重要。

AI 推荐理由

提出通过迭代模拟进行测试时扩展，核心在于行动前的探索与规划，显著提升代理可靠性。

研究机构

华为技术有限公司, 华为诺亚方舟实验室

论文信息

作者 Xingshan Zeng, Lingzhi Wang, Weiwen Liu, Liangyou Li, Yasheng Wang et al.

发布日期 2026-02-02

arXiv ID 2602.01709