RAudit：一种大型语言模型推理的盲审协议

LLM Reasoning Auditing Protocol Sycophancy Process Supervision

摘要

本文提出 RAudit，一种无需真实标签即可审计大语言模型推理的诊断协议。该协议基于“盲审”约束，仅评估推导步骤是否支持结论，以检测轨迹与输出的不一致性并恢复潜在能力。通过基于 CRIT 的合理性评分和社会框架实验，揭示了导致模型不可靠的四种机制：潜在能力抑制、虚假能力陷阱、复杂度 - 脆弱性权衡及医源性批评。研究挑战了能力即鲁棒性及更强反馈必优的假设。

AI 推荐理由

论文核心研究 LLM 推理病理、一致性审计及推理过程质量评估，直接针对推理能力。

研究机构

斯坦福大学

论文信息

作者 Edward Y. Chang, Longling Geng

发布日期 2026-01-30

arXiv ID 2601.23133