摘要
本文聚焦于赞助搜索中信息丰富的广告描述自动生成。针对广告描述需融合世界知识以响应用户意图并展示细粒度卖点的特点,提出了 Interactor 框架。该框架采用多轮迭代创作机制,通过代理强化学习进行优化。生成模型作为策略与包含多个生成式奖励模型的定制环境交互,依据多维质量评估(如知识容量和落地页一致性)获得的反馈信号及推理建议, iteratively refine 描述以确保持续提升。工业数据集实验表明,该方法在生成富含知识且忠实的广告描述方面显著优于现有技术,并已于 2026 年 5 月部署上线。
AI 推荐理由
论文核心在于利用代理强化学习实现描述的迭代优化与持续改进,符合自我进化定义。
研究机构
Search Ads, Baidu Inc.
论文信息