ECHO：用于测试时强化学习的熵 - 置信度混合优化

Test-Time RL Mathematical Reasoning Entropy Control Tree Search

摘要

测试时强化学习通过多次展开生成候选答案并利用伪标签更新，但面临高熵分支导致展开崩溃及早期伪标签噪声引发过拟合的挑战。本文提出熵置信度混合组相对策略优化（ECHO）方法。在展开阶段，联合利用局部熵与群体置信度自适应控制分支宽度，并引入基于置信度的剪枝以避免高熵陷阱；在策略更新阶段，采用置信度自适应裁剪与混合优势塑造技术增强鲁棒性。实验表明，ECHO 在多项数学与视觉推理基准上取得一致增益，且在有限预算下泛化能力更强。

AI 推荐理由

论文核心解决数学与视觉推理中的测试时强化学习问题，优化推理路径搜索。

研究机构

东北大学

论文信息

作者 Chu Zhao, Enneng Yang, Yuting Liu, Jianzhe Zhao, Guibing Guo

发布日期 2026-02-02

arXiv ID 2602.02150