Test-Time RL Mathematical Reasoning Entropy Control Tree Search
摘要

测试时强化学习通过多次展开生成候选答案并利用伪标签更新,但面临高熵分支导致展开崩溃及早期伪标签噪声引发过拟合的挑战。本文提出熵置信度混合组相对策略优化(ECHO)方法。在展开阶段,联合利用局部熵与群体置信度自适应控制分支宽度,并引入基于置信度的剪枝以避免高熵陷阱;在策略更新阶段,采用置信度自适应裁剪与混合优势塑造技术增强鲁棒性。实验表明,ECHO 在多项数学与视觉推理基准上取得一致增益,且在有限预算下泛化能力更强。

AI 推荐理由

论文核心解决数学与视觉推理中的测试时强化学习问题,优化推理路径搜索。

研究机构
东北大学
论文信息
作者 Chu Zhao, Enneng Yang, Yuting Liu, Jianzhe Zhao, Guibing Guo
发布日期 2026-02-02
arXiv ID 2602.02150
相关性评分 9/10 (高度相关)