摘要
本文提出一种新方法,将大型推理模型(LRM)的行为预测视为可学习任务,绕过传统解释步骤。通过训练行为预测器,仅基于单次推理轨迹即可预测模型在新输入下的表现,如答案重复概率或输入扰动影响。该方法无需人工标注,推理仅需一次前向传播。实验表明,在三个推理数据集上,该预测器准确性优于 GPT-5.4 和 Claude Opus-4.6 的直接阅读,且成本更低。研究还发现,端到端微调及从目标 LRM 初始化对性能至关重要,证明推理轨迹蕴含超越表面阅读的深层行为信息。
AI 推荐理由
论文聚焦大型推理模型(LRM)的行为预测,通过分析推理轨迹提升对模型行为的理解与评估。
研究机构
巴伊兰大学
Constellation
艾伦人工智能研究所
英国人工智能安全研究所
论文信息