摘要
随着大语言模型在工程领域表现趋近专家水平,其在用户指定约束下的可靠推理至关重要。本文提出 CircuChain 基准,旨在解耦电路分析中的指令遵循与物理推理能力。该基准包含五种典型电路拓扑的控制/陷阱问题对,通过符号求解器、SPICE 仿真及基于 LLM 的错误分类流水线,细粒度归因失败原因。实验发现“能力 - 合规性分歧”:强模型物理推理完美但易违反约定,弱模型反之。结果表明模型能力提升不保证约束对齐,需新评估框架。
AI 推荐理由
论文核心研究 LLM 在电路分析中的物理推理能力与指令遵循的解耦,评估其第一性原理推理水平。
研究机构
独立研究员
美国加利福尼亚州旧金山
论文信息