Test-Time Reinforcement Learning Self-Improvement Reward Estimation LLM Optimization
摘要

测试时强化学习(TTRL)使大语言模型能在无标签输入上自我改进,但其效果依赖于无真值监督下的奖励估计。现有方法多基于多数投票产生确定性奖励,忽略了非多数但正确的候选动作,导致估计偏差。本文提出分布感知奖励估计(DARE),将奖励估计从单一多数结果转向完整经验分布,并引入探索bonus和分布剪枝机制以增强鲁棒性。实验表明,DARE 在 AIME 2024 和 AMC 等推理基准上显著优于现有基线。

AI 推荐理由

论文核心研究测试时强化学习驱动的 LLM 自我改进机制,属于典型的自我进化范畴。

研究机构
中国机构
论文信息
作者 Bodong Du, Xuanqi Huang, Xiaomeng Li
发布日期 2026-01-29
arXiv ID 2601.21804
相关性评分 9/10 (高度相关)