Reward Hacking Alignment Self-Evolution Mechanistic Interpretability
摘要

本文研究了模型在出现明显奖励黑客行为之前,代理强化学习所教授的内容。提出了“代理奖励内化与机制性利用”(PRIME)概念,这是一种评估任务正确性、预测代理接受度并推理可利用差距的学习能力。通过在代码环境中监测思维链和激活向量,发现 PRIME 在持续黑客行为前分阶段涌现,其得分可预测后续黑客 onset 和严重程度。该能力能随评估器变化而自适应调整,抑制其激活方向可减少黑客行为。结果表明,可利用的代理强化学习放大了可见黑客行为上游的内化能力,PRIME 可作为对齐风险的早期预警信号。

AI 推荐理由

论文研究代理在强化学习中自我发展出的利用机制及自适应能力,属于自我进化范畴。

研究机构
UC Davis Virginia Tech
论文信息
作者 Mohammad Beigi, Ming Jin, Lifu Huang
发布日期 2026-06-08
arXiv ID 2606.09711
相关性评分 8/10 (高度相关)