RLAnything：在完全动态的强化学习系统中构建环境、策略与奖励模型

Reinforcement Learning Self-Evolution Dynamic Environment Agent Training

摘要

本文提出 RLAnything，一种通过闭环优化动态构建环境、策略和奖励模型的强化学习框架，旨在增强任意 LLM 或智能体场景的学习信号。该框架利用逐步反馈与结果信号训练策略，并通过一致性反馈联合优化奖励模型，进而反哺策略训练。此外，基于理论驱动的自动环境适应机制利用双方批评反馈提升训练效果，实现从经验中学习。实验表明，各组件均显著提升系统性能，在 OSWorld、AlfWorld 及 LiveBench 等任务上取得大幅增益，且优化后的奖励信号优于依赖人工标签的结果。

AI 推荐理由

论文提出动态闭环优化框架，实现策略、奖励模型及环境的自我迭代与自适应进化。

研究机构

普林斯顿大学

论文信息

作者 Yinjie Wang, Tianbao Xie, Ke Shen, Mengdi Wang, Ling Yang

发布日期 2026-02-02

arXiv ID 2602.02488