摘要
随着推理模型和智能体AI系统的进步,对外部信息的依赖性增加,但这也引入了具有噪声的输入上下文。本文提出了NoisyBench基准,系统评估了11个数据集上模型在RAG、推理、对齐和工具使用任务中的鲁棒性,针对多种噪声类型进行测试。结果表明,最先进的模型在面对上下文干扰时性能下降高达80%。研究发现,智能体工作流常因过度信任噪声工具输出而放大错误,并且干扰项可能引发非对抗性的对齐偏差。传统方法如提示、上下文工程、SFT和基于奖励的强化学习无法确保鲁棒性,而提出的Rationale-Aware Reward(RARE)通过激励模型识别噪声中的有用信息显著提升了鲁棒性。此外,研究还揭示了计算量增加反而导致性能下降的趋势,并通过注意力可视化展示了模型对干扰项的过度关注。
AI 推荐理由
论文探讨了噪声对Agent推理的影响,涉及记忆相关机制如上下文干扰和工具输出信任问题。
论文信息