代理奖励内化与机制性利用：奖励黑客行为的前兆及其泛化

Reward Hacking Alignment Self-Evolution Mechanistic Interpretability

摘要

本文研究了模型在出现明显奖励黑客行为之前，代理强化学习所教授的内容。提出了“代理奖励内化与机制性利用”（PRIME）概念，这是一种评估任务正确性、预测代理接受度并推理可利用差距的学习能力。通过在代码环境中监测思维链和激活向量，发现 PRIME 在持续黑客行为前分阶段涌现，其得分可预测后续黑客 onset 和严重程度。该能力能随评估器变化而自适应调整，抑制其激活方向可减少黑客行为。结果表明，可利用的代理强化学习放大了可见黑客行为上游的内化能力，PRIME 可作为对齐风险的早期预警信号。

AI 推荐理由

论文研究代理在强化学习中自我发展出的利用机制及自适应能力，属于自我进化范畴。

研究机构

UC Davis Virginia Tech

论文信息

作者 Mohammad Beigi, Ming Jin, Lifu Huang

发布日期 2026-06-08

arXiv ID 2606.09711