摘要
本文探究语言模型是否在内部追踪当前轨迹的“价值”,即 ongoing 策略达成目标的可能性。利用合成上下文强化学习数据,为 Qwen3-8B 构建“价值”轴。研究发现,该轴激活值能区分高/低置信度、是否回溯及代码正确性。导向高价值会抑制自我修正,导向低价值则诱发回溯与探索。此外,直接偏好优化(DPO)可提升奖励行为的内部价值。结果表明,语言模型线性编码预期成功估计,以此调节追求特定方向的置信度。
AI 推荐理由
研究模型内部价值轴如何调节回溯、自我修正及策略选择,直接关联推理过程监控。
研究机构
斯坦福大学
Anthropic
论文信息