Instruction Following Chain of Thought Constraint Analysis Large Reasoning Models
摘要

本研究探讨大推理模型(LRMs)在指令遵循任务中的表现,发现开启“思考”模式虽对整体通过率影响微小,却显著改变了错误分布模式。研究将约束类型划分为“规划”与“精度”两类:思考机制显著提升了涉及全局计数和结构的规划类任务表现,但导致对精确局部形式的精度类任务性能下降。跨模型验证及激活补丁实验进一步揭示了思考轨迹与最终合规性之间的执行差距,表明思考过程对不同性质的约束具有差异化的影响机制。

AI 推荐理由

论文核心研究思维链对规划类约束(全局计数、结构)的促进作用,明确区分规划与精度任务。

研究机构
George Mason University
论文信息
作者 Sai Adith Senthil Kumar
发布日期 2026-06-08
arXiv ID 2606.09662
相关性评分 8/10 (高度相关)