在测试时学习以发现新方法

强化学习测试时训练 LLM优化持续学习科学发现

摘要

如何利用AI为科学问题发现新的最先进方法？先前的测试时扩展工作（如AlphaEvolve）通过提示冻结的LLM进行搜索。本文则在测试时进行强化学习，使LLM能够根据特定测试问题的经验继续训练。这种持续学习的目标是生成一个优秀的解决方案，而非平均多个良好方案或泛化到其他问题。因此，其学习目标和搜索子程序优先考虑最有前景的解决方案。我们称此方法为测试时训练以发现（TTT-Discover）。我们关注具有连续奖励的问题，并在数学、GPU内核工程、算法设计和生物学等多个领域报告了结果。TTT-Discover在几乎所有问题上都设定了新的最先进水平。所有结果均使用开源模型OpenAI gpt-oss-120b实现，并可通过公开代码复现。

AI 推荐理由

论文涉及测试时训练与LLM的持续学习，但未直接探讨Agent Memory机制。

论文信息

作者 Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb et al.

发布日期 2026-01-22

arXiv ID 2601.16175