迷失在噪声中：推理模型如何因上下文干扰而失效

噪声鲁棒性智能体系统上下文干扰 RAG 对齐偏差

摘要

随着推理模型和智能体AI系统的进步，对外部信息的依赖性增加，但这也引入了具有噪声的输入上下文。本文提出了NoisyBench基准，系统评估了11个数据集上模型在RAG、推理、对齐和工具使用任务中的鲁棒性，针对多种噪声类型进行测试。结果表明，最先进的模型在面对上下文干扰时性能下降高达80%。研究发现，智能体工作流常因过度信任噪声工具输出而放大错误，并且干扰项可能引发非对抗性的对齐偏差。传统方法如提示、上下文工程、SFT和基于奖励的强化学习无法确保鲁棒性，而提出的Rationale-Aware Reward（RARE）通过激励模型识别噪声中的有用信息显著提升了鲁棒性。此外，研究还揭示了计算量增加反而导致性能下降的趋势，并通过注意力可视化展示了模型对干扰项的过度关注。

AI 推荐理由

论文探讨了噪声对Agent推理的影响，涉及记忆相关机制如上下文干扰和工具输出信任问题。

论文信息

作者 Seongyun Lee, Yongrae Jo, Minju Seo, Moontae Lee, Minjoon Seo

发布日期 2026-01-12

arXiv ID 2601.07226