Agent Memory Reinforcement Learning Visual Search Credit Assignment
摘要

尽管基于强化学习的信息检索代理在性能上表现出色,但在开放网络环境中,学习过程仍受到低信噪比反馈的严重限制。文本解析器通常会忽略布局语义并引入无结构噪声,而长时程训练则依赖稀疏的结果奖励,难以明确哪些检索动作真正重要。为此,本文提出了一种基于视觉的搜索框架,将网页表示为视觉快照,使代理能够利用布局线索快速定位关键证据并抑制干扰项。为了从这些高维观测中有效学习,我们引入了信息感知信用分配(ICA)方法,通过后验分析估计每个检索快照对最终结果的贡献,并将密集的学习信号回传至关键搜索步骤。结合基于GRPO的训练流程,我们的方法在多个信息检索基准测试中均优于基于文本的基线方法,证明了视觉快照结合信息级信用分配可以缓解开放网络环境中的信用分配瓶颈。

AI 推荐理由

论文提出ICA方法,涉及信息归因与记忆机制,用于解决长期任务中的信用分配问题。

论文信息
作者 Cong Pang, Xuyu Feng, Yujie Yi, Zixuan Chen, Jiawei Hong et al.
发布日期 2026-02-11
arXiv ID 2602.10863
相关性评分 7/10 (相关)