摘要
如何利用AI为科学问题发现新的最先进方法?先前的测试时扩展工作(如AlphaEvolve)通过提示冻结的LLM进行搜索。本文则在测试时进行强化学习,使LLM能够根据特定测试问题的经验继续训练。这种持续学习的目标是生成一个优秀的解决方案,而非平均多个良好方案或泛化到其他问题。因此,其学习目标和搜索子程序优先考虑最有前景的解决方案。我们称此方法为测试时训练以发现(TTT-Discover)。我们关注具有连续奖励的问题,并在数学、GPU内核工程、算法设计和生物学等多个领域报告了结果。TTT-Discover在几乎所有问题上都设定了新的最先进水平。所有结果均使用开源模型OpenAI gpt-oss-120b实现,并可通过公开代码复现。
AI 推荐理由
论文涉及测试时训练与LLM的持续学习,但未直接探讨Agent Memory机制。
论文信息