摘要
大语言模型正通过自动化发现性能关键算法变革系统研究,但生成满足严格正确性与性能要求的解决方案需迭代优化。针对测试时强化学习需参数更新及现有无训练进化方法上下文利用低效的问题,本文提出 ContextEvolve。该多智能体框架通过将优化上下文分解为语义状态摘要、轨迹方向提炼及经验分布筛选三个正交维度,在严格无参数约束下实现了媲美强化学习的搜索效率。实验表明,其在 ADRS 基准上优于最先进基线 33.3%,同时降低 29.0% 的令牌消耗。
AI 推荐理由
论文提出基于多智能体的进化框架,核心解决无参数更新下的迭代优化与自我改进问题。
研究机构
清华大学, 北京, 中国
论文信息