摘要
本文针对测试驱动开发中编码代理的环境交互策略,提出了概率理论框架。首先,将代码选择启发式方法形式化为环境感知估计器,证明基于模糊功能相似性的估计器在信噪比上优于功能等价估计器。其次,将反向提示建模为汤普森采样的上下文近似,推导了不可观测奖励函数的遗憾界,解释了任务描述歧义对效果的限制。实验验证了理论发现,并提出了改进任务描述的新基准。
AI 推荐理由
论文核心研究编码代理与环境交互的理论机制,聚焦代码生成与修正技能。
研究机构
IBM Research Zurich, Zürich, Switzerland
论文信息