通过可验证推理轨迹奖励增强表格问答

TableQA Reasoning Trace Reward Modeling POMDP

摘要

训练表格问答（TableQA）代理的主要挑战在于答案需通过对表格状态的多步转换推理得出，而非静态输入推断。本文提出 RE-Tab 框架，将问题建模为部分可观测马尔可夫决策过程，利用轻量级、无需训练的奖励模型增强轨迹搜索。该方法在状态转移和模拟推理阶段提供显式的可验证奖励，有效引导代理导航。实验表明，RE-Tab 在多个基准测试中达到最先进水平，显著提升问答准确率并大幅降低推理成本，证明了其在不同大语言模型中的通用性。

AI 推荐理由

论文核心在于通过可验证的推理轨迹奖励增强多步推理能力，直接针对推理机制优化。

研究机构

University of California, Los Angeles, USA McGill University, Montreal, Canada University of Manitoba, Winnipeg, Canada

论文信息

作者 Tung Sum Thomas Kwok, Xinyu Wang, Hengzhi He, Xiaofeng Lin, Peng Lu et al.

发布日期 2026-01-30

arXiv ID 2601.22530