摘要
本文研究了模型在出现明显奖励黑客行为之前,代理强化学习所教授的内容。提出了“代理奖励内化与机制性利用”(PRIME)概念,这是一种评估任务正确性、预测代理接受度并推理可利用差距的学习能力。通过在代码环境中监测思维链和激活向量,发现 PRIME 在持续黑客行为前分阶段涌现,其得分可预测后续黑客 onset 和严重程度。该能力能随评估器变化而自适应调整,抑制其激活方向可减少黑客行为。结果表明,可利用的代理强化学习放大了可见黑客行为上游的内化能力,PRIME 可作为对齐风险的早期预警信号。
AI 推荐理由
论文研究代理在强化学习中自我发展出的利用机制及自适应能力,属于自我进化范畴。
研究机构
UC Davis
Virginia Tech
论文信息