强化学习 LLM采样策略 探索-利用平衡 分层学习
摘要

基于可验证奖励的强化学习(RLVR)通过采样轨迹训练大型语言模型(LLMs),使解码策略成为学习的核心组成部分,而不仅仅是推理时的选择。采样温度直接通过调节策略熵控制探索与利用的权衡,但现有方法依赖静态值或启发式适应,这些方法与任务级奖励脱节。本文提出Introspective LLM,一种分层强化学习框架,能够在生成过程中学习控制采样温度。在每个解码步骤中,模型根据其隐藏状态选择温度,并从相应分布中采样下一个标记。温度和标记策略通过坐标上升方案从下游奖励中联合优化。在数学推理基准上的实验表明,所学温度策略优于固定和启发式基线,并表现出与推理不确定性一致的可解释探索行为。

AI 推荐理由

论文涉及LLM内部状态与温度策略学习,与Agent Memory相关但非唯一主题。

论文信息
作者 Yixiao Zhou, Yang Li, Dongzhou Cheng, Hehe Fan, Yu Cheng
发布日期 2026-02-13
arXiv ID 2602.13035
相关性评分 7/10 (相关)