基于大语言模型的启发式发现博弈论协同进化

Co-Evolution Heuristic Discovery Game Theory LLM Agent Combinatorial Optimization

摘要

大语言模型推动了自动启发式发现的发展，但现有方法多受限于静态评估，导致过拟合及分布偏移下泛化能力差。本文提出算法空间响应预言机（ASRO），一种博弈论框架，将启发式发现重构为求解器与实例生成器间的程序级协同进化。该框架将交互建模为零和博弈，维护双方策略池，并通过基于大语言模型的最佳响应预言机针对混合对手元策略迭代扩展策略，从而以自适应自生成课程替代静态评估。实验表明，ASRO 在多个组合优化领域显著优于静态训练基线，提升了泛化性与鲁棒性。

AI 推荐理由

论文提出博弈论协同进化框架，核心在于求解器与实例生成器的程序级协同进化与自我改进。

研究机构

中国科学院自动化研究所清华大学人工智能研究院

论文信息

作者 Xinyi Ke, Kai Li, Junliang Xing, Yifan Zhang, Jian Cheng

发布日期 2026-01-30

arXiv ID 2601.22896