TableQA Reasoning Trace Reward Modeling POMDP
摘要

训练表格问答(TableQA)代理的主要挑战在于答案需通过对表格状态的多步转换推理得出,而非静态输入推断。本文提出 RE-Tab 框架,将问题建模为部分可观测马尔可夫决策过程,利用轻量级、无需训练的奖励模型增强轨迹搜索。该方法在状态转移和模拟推理阶段提供显式的可验证奖励,有效引导代理导航。实验表明,RE-Tab 在多个基准测试中达到最先进水平,显著提升问答准确率并大幅降低推理成本,证明了其在不同大语言模型中的通用性。

AI 推荐理由

论文核心在于通过可验证的推理轨迹奖励增强多步推理能力,直接针对推理机制优化。

研究机构
University of California, Los Angeles, USA McGill University, Montreal, Canada University of Manitoba, Winnipeg, Canada
论文信息
作者 Tung Sum Thomas Kwok, Xinyu Wang, Hengzhi He, Xiaofeng Lin, Peng Lu et al.
发布日期 2026-01-30
arXiv ID 2601.22530
相关性评分 9/10 (高度相关)