Computer-using Agents World Models Risk Prediction Task Re-planning AI Safety
摘要

针对计算机操作智能体在复杂环境中面临的长程不可逆风险,现有反应式护栏难以识别延迟显现的隐患。本文提出 SafePred,一种基于世界模型的预测性护栏框架。该方法构建“风险 - 决策”闭环,利用世界模型预测短长期风险语义表示以剪枝高危动作,并通过步骤级干预与任务级重规划将风险转化为安全决策指导。实验表明,SafePred 显著降低高危行为,安全性超 97.6%,任务效用提升达 21.4%。

AI 推荐理由

提出基于世界模型的预测性护栏,通过任务级重规划优化决策,核心解决长程风险规划问题。

研究机构
中国科学院自动化研究所
论文信息
作者 Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin et al.
发布日期 2026-02-02
arXiv ID 2602.01725
相关性评分 9/10 (高度相关)