噪声鲁棒性 智能体系统 上下文干扰 RAG 对齐偏差
摘要

随着推理模型和智能体AI系统的进步,对外部信息的依赖性增加,但这也引入了具有噪声的输入上下文。本文提出了NoisyBench基准,系统评估了11个数据集上模型在RAG、推理、对齐和工具使用任务中的鲁棒性,针对多种噪声类型进行测试。结果表明,最先进的模型在面对上下文干扰时性能下降高达80%。研究发现,智能体工作流常因过度信任噪声工具输出而放大错误,并且干扰项可能引发非对抗性的对齐偏差。传统方法如提示、上下文工程、SFT和基于奖励的强化学习无法确保鲁棒性,而提出的Rationale-Aware Reward(RARE)通过激励模型识别噪声中的有用信息显著提升了鲁棒性。此外,研究还揭示了计算量增加反而导致性能下降的趋势,并通过注意力可视化展示了模型对干扰项的过度关注。

AI 推荐理由

论文探讨了噪声对Agent推理的影响,涉及记忆相关机制如上下文干扰和工具输出信任问题。

论文信息
作者 Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo
发布日期 2026-01-12
arXiv ID 2601.07226
相关性评分 7/10 (相关)