behavior forecasting large reasoning models interpretability trajectory analysis
摘要

本文提出一种新方法,将大型推理模型(LRM)的行为预测视为可学习任务,绕过传统解释步骤。通过训练行为预测器,仅基于单次推理轨迹即可预测模型在新输入下的表现,如答案重复概率或输入扰动影响。该方法无需人工标注,推理仅需一次前向传播。实验表明,在三个推理数据集上,该预测器准确性优于 GPT-5.4 和 Claude Opus-4.6 的直接阅读,且成本更低。研究还发现,端到端微调及从目标 LRM 初始化对性能至关重要,证明推理轨迹蕴含超越表面阅读的深层行为信息。

AI 推荐理由

论文聚焦大型推理模型(LRM)的行为预测,通过分析推理轨迹提升对模型行为的理解与评估。

研究机构
巴伊兰大学 Constellation 艾伦人工智能研究所 英国人工智能安全研究所
论文信息
作者 Mosh Levy, Yoav Goldberg, Asa Cooper Stickland
发布日期 2026-06-09
arXiv ID 2606.11445
相关性评分 8/10 (高度相关)