摘要
本文提出智能体自动机学习框架,旨在评估工具调用型 LLM 智能体通过交互揭示隐藏环境的能力。实验设定中,智能体需通过成员查询和等价查询与预言机交互,以 uncover 隐藏的确定性有限自动机(DFA)。该方法提供了可扩展的测试平台,具备可控的任务复杂度和可衡量的交互效率。评估结果显示,随着 DFA 规模增大,现有最先进模型性能急剧下降。尽管推理模型表现优于非推理模型,但轨迹分析揭示了其在查询规划、证据整合及假设构建方面的 recurring 失败。结论表明,当前 LLM 智能体虽能执行一定的交互式发现任务,但在鲁棒性和效率上远逊于经典算法。
AI 推荐理由
论文核心评估 LLM 在交互中发现隐藏环境的推理能力,重点分析假设构建与证据整合。
研究机构
The Hebrew University of Jerusalem
New York University
Google Research
论文信息