摘要
大型推理模型(LRMs)在复杂问题解决中取得了显著成功,但常常面临计算冗余或推理不忠实的问题。当前塑造LRM行为的方法通常依赖于强化学习或使用黄金标准推理轨迹进行微调,这种范式计算成本高且难以扩展。本文揭示了LRMs具有潜在的推理信念,这些信念能够通过简单的logit探测来捕捉。基于这一洞察,我们提出了Reasoning Belief Engineering(RELIEF),一种简单而有效的框架,通过将模型的自我概念与其目标信念蓝图对齐来塑造LRM的行为。关键的是,RELIEF完全绕过了对推理轨迹监督的需求。它通过在合成的、自我反思的问题-回答对上进行微调,内化期望的特性。在效率和忠实度任务上的大量实验表明,RELIEF在训练成本更低的情况下匹配或优于行为监督和基于偏好的基线方法。进一步分析验证了改变模型的推理信念可以有效塑造其实际行为。
AI 推荐理由
论文涉及模型内部的信念机制,与Agent Memory相关但非唯一主题。
论文信息