摘要
训练表格问答(TableQA)代理的主要挑战在于答案需通过对表格状态的多步转换推理得出,而非静态输入推断。本文提出 RE-Tab 框架,将问题建模为部分可观测马尔可夫决策过程,利用轻量级、无需训练的奖励模型增强轨迹搜索。该方法在状态转移和模拟推理阶段提供显式的可验证奖励,有效引导代理导航。实验表明,RE-Tab 在多个基准测试中达到最先进水平,显著提升问答准确率并大幅降低推理成本,证明了其在不同大语言模型中的通用性。
AI 推荐理由
论文核心在于通过可验证的推理轨迹奖励增强多步推理能力,直接针对推理机制优化。
研究机构
University of California, Los Angeles, USA
McGill University, Montreal, Canada
University of Manitoba, Winnipeg, Canada
论文信息