摘要
本文提出 LLM-FSM 基准,旨在评估大语言模型从自然语言规范中恢复有限状态机(FSM)行为并转化为正确寄存器传输级(RTL)代码的能力。该基准通过全自动化流水线构建,涵盖可配置状态数与约束转移结构,并利用形式化验证确保参考实现正确。实验表明,随着 FSM 复杂度增加,现有模型准确率显著下降。研究进一步证实,监督微调能有效泛化至分布外任务,而增加测试时计算量可提升推理可靠性。
AI 推荐理由
论文核心评估并提升 LLM 在有限状态机中的逻辑推理与状态依赖行为理解能力。
研究机构
斯坦福大学
论文信息