LLM Agent Learning Testbench Generation Verification Offline Reinforcement Learning
摘要

执行感知的LLM智能体为从工具反馈中学习提供了一种有前景的范式,但由于此类反馈通常昂贵且获取缓慢,使得在线强化学习(RL)难以实施。高覆盖率的硬件验证正是这一挑战的典型例子,因为它依赖工业模拟器和非微分执行信号。我们提出了LLM4Cov,一种离线智能体学习框架,将验证建模为由确定性评估器引导的记忆状态转移。在此基础上,我们引入了执行验证的数据整理、策略感知的智能体数据合成以及最差状态优先采样,以在执行约束下实现可扩展的学习。我们进一步通过修订的评估协议,从现有验证套件中构建了一个现实对齐的基准。使用所提出的流程,一个紧凑的4B参数模型在智能体评估下实现了69.2%的覆盖率通过率,比其教师模型高出5.3%,并表现出与更大一数量级模型相当的竞争性能。

AI 推荐理由

论文涉及基于执行反馈的代理学习,与Agent Memory相关但非核心主题。

论文信息
作者 Hejia Zhang, Zhongming Yu, Chia-Tung Ho, Haoxing Ren, Brucek Khailany et al.
发布日期 2026-02-18
arXiv ID 2602.16953
相关性评分 6/10 (相关)