internal state self-correction mechanistic interpretability confidence estimation
摘要

本文探究语言模型是否在内部追踪当前轨迹的“价值”,即 ongoing 策略达成目标的可能性。利用合成上下文强化学习数据,为 Qwen3-8B 构建“价值”轴。研究发现,该轴激活值能区分高/低置信度、是否回溯及代码正确性。导向高价值会抑制自我修正,导向低价值则诱发回溯与探索。此外,直接偏好优化(DPO)可提升奖励行为的内部价值。结果表明,语言模型线性编码预期成功估计,以此调节追求特定方向的置信度。

AI 推荐理由

研究模型内部价值轴如何调节回溯、自我修正及策略选择,直接关联推理过程监控。

研究机构
斯坦福大学 Anthropic
论文信息
作者 Nick Jiang, Isaac Kauvar, Jack Lindsey
发布日期 2026-06-15
arXiv ID 2606.17056
相关性评分 8/10 (高度相关)