Tool Calling Activation Steering Representation Engineering Training-Free
摘要

针对领域特定工具调用中接口演变导致的脆弱性问题,本文指出“懒惰代理”失效模式:模型中层激活虽可解码工具需求,但行为保守。为此,提出激活引导适配器(ASA),一种免训练、推理时控制器。该方法通过单次中层干预,利用路由条件的混合引导向量及探针引导符号门控,放大真实意图并抑制误触发。实验表明,ASA 在显著降低误报率的同时,大幅提升了严格工具使用的 F1 分数,且仅需极小存储开销。

AI 推荐理由

论文核心解决工具调用(Tool-Calling)的可靠性问题,提出无需训练的激活引导方法,直接提升技能执行能力。

研究机构
Macau University of Science and Technology Fudan University
论文信息
作者 Youjin Wang, Run Zhou, Rong Fu, Shuaishuai Cao, Hongwei Zeng et al.
发布日期 2026-02-04
arXiv ID 2602.04935
相关性评分 9/10 (高度相关)