摘要
测试时强化学习通过多次展开生成候选答案并利用伪标签更新,但面临高熵分支导致展开崩溃及早期伪标签噪声引发过拟合的挑战。本文提出熵置信度混合组相对策略优化(ECHO)方法。在展开阶段,联合利用局部熵与群体置信度自适应控制分支宽度,并引入基于置信度的剪枝以避免高熵陷阱;在策略更新阶段,采用置信度自适应裁剪与混合优势塑造技术增强鲁棒性。实验表明,ECHO 在多项数学与视觉推理基准上取得一致增益,且在有限预算下泛化能力更强。
AI 推荐理由
论文核心解决数学与视觉推理中的测试时强化学习问题,优化推理路径搜索。
研究机构
东北大学
论文信息