LLM评估 思维链 代理操控 推理验证
摘要

大型语言模型(LLMs)越来越多地被用作评判者来评估代理的表现,尤其是在无法验证的场景中,评判依赖于代理的轨迹,包括思维链(CoT)推理。这一范式隐含假设代理的CoT真实反映了其内部推理和环境状态。我们证明这一假设是脆弱的:LLM评判者极易受到代理推理轨迹的操控。通过系统性地重写代理的CoT,同时保持动作和观察不变,我们表明仅通过操控推理即可使最先进的视觉语言模型(VLM)评判者的误报率在800条涵盖多样化网络任务的轨迹中最高增加90%。我们研究了基于风格的操控方法(仅改变推理的呈现方式)和基于内容的操控方法(伪造任务进展信号),发现基于内容的操控更为有效。我们评估了基于提示的技术和增加评判计算资源的方法,这些方法虽能减少但不能完全消除对操控的易感性。我们的研究揭示了基于LLM的评估存在根本性漏洞,并突显了需要验证推理声明与可观测证据的评判机制。

AI 推荐理由

论文涉及Agent的推理轨迹(CoT)与评估机制,间接关联到记忆系统。

论文信息
作者 Muhammad Khalifa, Lajanugen Logeswaran, Jaekyeom Kim, Sungryull Sohn, Yunxiang Zhang et al.
发布日期 2026-01-21
arXiv ID 2601.14691
相关性评分 6/10 (相关)