Coding Agent Environment Interaction Theoretical Analysis Backprompting
摘要

本文针对测试驱动开发中编码代理的环境交互策略,提出了概率理论框架。首先,将代码选择启发式方法形式化为环境感知估计器,证明基于模糊功能相似性的估计器在信噪比上优于功能等价估计器。其次,将反向提示建模为汤普森采样的上下文近似,推导了不可观测奖励函数的遗憾界,解释了任务描述歧义对效果的限制。实验验证了理论发现,并提出了改进任务描述的新基准。

AI 推荐理由

论文核心研究编码代理与环境交互的理论机制,聚焦代码生成与修正技能。

研究机构
IBM Research Zurich, Zürich, Switzerland
论文信息
作者 Nicolas Menet, Michael Hersche, Andreas Krause, Abbas Rahimi
发布日期 2026-02-05
arXiv ID 2602.06098
相关性评分 9/10 (高度相关)