Agent Framework Interaction Optimization Long-horizon Tasks End-to-end Learning
摘要

大语言模型作为智能体部署于长程任务时,其表现不仅取决于模型能力,还受中介交互的“框架”影响。现有框架多为手工设计,难以扩展。本文提出 HarnessBridge,一种轻量级可学习插件,将代理 - 环境接口参数化为双向投影:观察投影将原始轨迹提炼为紧凑状态,动作投影将提议动作转化为可执行转换或基于轨迹的拒绝。通过在监督数据集上进行统一指令微调,该方法在 Terminal-Bench 2.0 和 SWE-bench Verified 上匹配或超越专用框架,显著减少令牌消耗与轨迹长度,并具备从小模型到大商业模型的泛化能力。

AI 推荐理由

论文核心是优化 Agent 与环境交互的控制器,通过状态蒸馏和动作投影提升长程任务执行效率,直接服务于规划能力。

研究机构
University of California, Los Angeles
论文信息
作者 Xiaoxuan Wang, Haixin Wang, Alexander Taylor, Jason Cong, Yizhou Sun et al.
发布日期 2026-06-11
arXiv ID 2606.12882
相关性评分 8/10 (高度相关)