摘要
本文提出 RAudit,一种无需真实标签即可审计大语言模型推理的诊断协议。该协议基于“盲审”约束,仅评估推导步骤是否支持结论,以检测轨迹与输出的不一致性并恢复潜在能力。通过基于 CRIT 的合理性评分和社会框架实验,揭示了导致模型不可靠的四种机制:潜在能力抑制、虚假能力陷阱、复杂度 - 脆弱性权衡及医源性批评。研究挑战了能力即鲁棒性及更强反馈必优的假设。
AI 推荐理由
论文核心研究 LLM 推理病理、一致性审计及推理过程质量评估,直接针对推理能力。
研究机构
斯坦福大学
论文信息