将未来行为预测作为一种学习任务

behavior forecasting large reasoning models interpretability trajectory analysis

摘要

本文提出一种新方法，将大型推理模型（LRM）的行为预测视为可学习任务，绕过传统解释步骤。通过训练行为预测器，仅基于单次推理轨迹即可预测模型在新输入下的表现，如答案重复概率或输入扰动影响。该方法无需人工标注，推理仅需一次前向传播。实验表明，在三个推理数据集上，该预测器准确性优于 GPT-5.4 和 Claude Opus-4.6 的直接阅读，且成本更低。研究还发现，端到端微调及从目标 LRM 初始化对性能至关重要，证明推理轨迹蕴含超越表面阅读的深层行为信息。

AI 推荐理由

论文聚焦大型推理模型（LRM）的行为预测，通过分析推理轨迹提升对模型行为的理解与评估。

研究机构

巴伊兰大学 Constellation 艾伦人工智能研究所英国人工智能安全研究所

论文信息

作者 Mosh Levy, Yoav Goldberg, Asa Cooper Stickland

发布日期 2026-06-09

arXiv ID 2606.11445