Neurosymbolic AI Benchmark Logic Programming ReAct Agent
摘要

本文提出 ASP-Bench 基准,旨在评估将自然语言规范自动转化为答案集程序(ASP)的系统。该基准包含 128 个问题实例,系统覆盖选择规则、聚合及优化等 ASP 特性,并从优化、时空推理等七个独立维度刻画建模难度。研究采用基于 ReAct 框架的代理方法,利用求解器反馈进行迭代 refinement,实现了完全饱和,证明了该方法在自然语言建模中的可靠性,并深入分析了决定问题建模难度的关键因素。

AI 推荐理由

论文核心评估将自然语言转化为逻辑程序的推理能力,涵盖多种推理维度。

研究机构
Algorithms and Complexity Group, TU Wien, Vienna, Austria
论文信息
作者 Stefan Szeider
发布日期 2026-02-01
arXiv ID 2602.01171
相关性评分 9/10 (高度相关)