SafePred：基于世界模型的计算机操作智能体预测性护栏

Computer-using Agents World Models Risk Prediction Task Re-planning AI Safety

摘要

针对计算机操作智能体在复杂环境中面临的长程不可逆风险，现有反应式护栏难以识别延迟显现的隐患。本文提出 SafePred，一种基于世界模型的预测性护栏框架。该方法构建“风险 - 决策”闭环，利用世界模型预测短长期风险语义表示以剪枝高危动作，并通过步骤级干预与任务级重规划将风险转化为安全决策指导。实验表明，SafePred 显著降低高危行为，安全性超 97.6%，任务效用提升达 21.4%。

AI 推荐理由

提出基于世界模型的预测性护栏，通过任务级重规划优化决策，核心解决长程风险规划问题。

研究机构

中国科学院自动化研究所

论文信息

作者 Yurun Chen, Zeyi Liao, Ping Yin, Taotao Xie, Keting Yin et al.

发布日期 2026-02-02

arXiv ID 2602.01725