面向测试时强化学习的分布感知奖励估计

Test-Time Reinforcement Learning Self-Improvement Reward Estimation LLM Optimization

摘要

测试时强化学习（TTRL）使大语言模型能在无标签输入上自我改进，但其效果依赖于无真值监督下的奖励估计。现有方法多基于多数投票产生确定性奖励，忽略了非多数但正确的候选动作，导致估计偏差。本文提出分布感知奖励估计（DARE），将奖励估计从单一多数结果转向完整经验分布，并引入探索bonus和分布剪枝机制以增强鲁棒性。实验表明，DARE 在 AIME 2024 和 AMC 等推理基准上显著优于现有基线。

AI 推荐理由

论文核心研究测试时强化学习驱动的 LLM 自我改进机制，属于典型的自我进化范畴。

研究机构

中国机构

论文信息

作者 Bodong Du, Xuanqi Huang, Xiaomeng Li

发布日期 2026-01-29

arXiv ID 2601.21804