价值轴：语言模型编码其是否处于正确轨道

internal state self-correction mechanistic interpretability confidence estimation

摘要

本文探究语言模型是否在内部追踪当前轨迹的“价值”，即 ongoing 策略达成目标的可能性。利用合成上下文强化学习数据，为 Qwen3-8B 构建“价值”轴。研究发现，该轴激活值能区分高/低置信度、是否回溯及代码正确性。导向高价值会抑制自我修正，导向低价值则诱发回溯与探索。此外，直接偏好优化（DPO）可提升奖励行为的内部价值。结果表明，语言模型线性编码预期成功估计，以此调节追求特定方向的置信度。

AI 推荐理由

研究模型内部价值轴如何调节回溯、自我修正及策略选择，直接关联推理过程监控。

研究机构

斯坦福大学 Anthropic

论文信息

作者 Nick Jiang, Isaac Kauvar, Jack Lindsey

发布日期 2026-06-15

arXiv ID 2606.17056