摘要
本文提出 RLAnything,一种通过闭环优化动态构建环境、策略和奖励模型的强化学习框架,旨在增强任意 LLM 或智能体场景的学习信号。该框架利用逐步反馈与结果信号训练策略,并通过一致性反馈联合优化奖励模型,进而反哺策略训练。此外,基于理论驱动的自动环境适应机制利用双方批评反馈提升训练效果,实现从经验中学习。实验表明,各组件均显著提升系统性能,在 OSWorld、AlfWorld 及 LiveBench 等任务上取得大幅增益,且优化后的奖励信号优于依赖人工标签的结果。
AI 推荐理由
论文提出动态闭环优化框架,实现策略、奖励模型及环境的自我迭代与自适应进化。
研究机构
普林斯顿大学
论文信息