摘要
针对计算机操作智能体在复杂环境中面临的长程不可逆风险,现有反应式护栏难以识别延迟显现的隐患。本文提出 SafePred,一种基于世界模型的预测性护栏框架。该方法构建“风险 - 决策”闭环,利用世界模型预测短长期风险语义表示以剪枝高危动作,并通过步骤级干预与任务级重规划将风险转化为安全决策指导。实验表明,SafePred 显著降低高危行为,安全性超 97.6%,任务效用提升达 21.4%。
AI 推荐理由
提出基于世界模型的预测性护栏,通过任务级重规划优化决策,核心解决长程风险规划问题。
研究机构
中国科学院自动化研究所
论文信息