摘要
测试时强化学习(TTRL)使大语言模型能在无标签输入上自我改进,但其效果依赖于无真值监督下的奖励估计。现有方法多基于多数投票产生确定性奖励,忽略了非多数但正确的候选动作,导致估计偏差。本文提出分布感知奖励估计(DARE),将奖励估计从单一多数结果转向完整经验分布,并引入探索bonus和分布剪枝机制以增强鲁棒性。实验表明,DARE 在 AIME 2024 和 AMC 等推理基准上显著优于现有基线。
AI 推荐理由
论文核心研究测试时强化学习驱动的 LLM 自我改进机制,属于典型的自我进化范畴。
研究机构
中国机构
论文信息