LLM4Cov: 基于执行感知的智能体学习用于高覆盖率测试平台生成

LLM Agent Learning Testbench Generation Verification Offline Reinforcement Learning

摘要

执行感知的LLM智能体为从工具反馈中学习提供了一种有前景的范式，但由于此类反馈通常昂贵且获取缓慢，使得在线强化学习（RL）难以实施。高覆盖率的硬件验证正是这一挑战的典型例子，因为它依赖工业模拟器和非微分执行信号。我们提出了LLM4Cov，一种离线智能体学习框架，将验证建模为由确定性评估器引导的记忆状态转移。在此基础上，我们引入了执行验证的数据整理、策略感知的智能体数据合成以及最差状态优先采样，以在执行约束下实现可扩展的学习。我们进一步通过修订的评估协议，从现有验证套件中构建了一个现实对齐的基准。使用所提出的流程，一个紧凑的4B参数模型在智能体评估下实现了69.2%的覆盖率通过率，比其教师模型高出5.3%，并表现出与更大一数量级模型相当的竞争性能。

AI 推荐理由

论文涉及基于执行反馈的代理学习，与Agent Memory相关但非核心主题。

论文信息

作者 Hejia Zhang, Zhongming Yu, Chia-Tung Ho, Haoxing Ren, Brucek Khailany et al.

发布日期 2026-02-18

arXiv ID 2602.16953