LLM 评估 物理推理 电路分析 指令遵循 基准测试
摘要

随着大语言模型在工程领域表现趋近专家水平,其在用户指定约束下的可靠推理至关重要。本文提出 CircuChain 基准,旨在解耦电路分析中的指令遵循与物理推理能力。该基准包含五种典型电路拓扑的控制/陷阱问题对,通过符号求解器、SPICE 仿真及基于 LLM 的错误分类流水线,细粒度归因失败原因。实验发现“能力 - 合规性分歧”:强模型物理推理完美但易违反约定,弱模型反之。结果表明模型能力提升不保证约束对齐,需新评估框架。

AI 推荐理由

论文核心研究 LLM 在电路分析中的物理推理能力与指令遵循的解耦,评估其第一性原理推理水平。

研究机构
独立研究员 美国加利福尼亚州旧金山
论文信息
作者 Mayank Ravishankara
发布日期 2026-01-29
arXiv ID 2602.15037
相关性评分 9/10 (高度相关)