安全对齐 上下文学习 强化学习 LLM对齐
摘要

尽管推理模型在复杂推理任务中取得了显著成功,但其不断增强的能力需要严格的安全措施。对于安全对齐,核心挑战在于安全与效用之间的固有权衡。然而,现有的对齐策略通常通过上下文蒸馏构建包含显式安全规则的CoT训练数据。这种方法无意中通过规则记忆与拒绝之间的刚性关联限制了推理能力。为缓解安全-效用权衡,我们提出了自适应安全上下文学习(ASCL)框架,以在适当上下文中提升推理能力。ASCL将安全对齐建模为多轮工具使用过程,使模型能够自主决定何时咨询安全规则以及如何生成持续推理。此外,为应对强化学习过程中对规则咨询的偏好,我们引入了逆频率策略优化(IFPO)以重新平衡优势估计。通过解耦规则检索和后续推理,我们的方法相比基线实现了更高的整体性能。

AI 推荐理由

论文涉及安全上下文学习,与Agent Memory相关但非核心主题。

论文信息
作者 Yanbo Wang, Minzheng Wang, Jian Liang, Lu Wang, Yongcan Yu et al.
发布日期 2026-02-14
arXiv ID 2602.13562
相关性评分 6/10 (相关)