强化学习 测试时训练 LLM优化 持续学习 科学发现
摘要

如何利用AI为科学问题发现新的最先进方法?先前的测试时扩展工作(如AlphaEvolve)通过提示冻结的LLM进行搜索。本文则在测试时进行强化学习,使LLM能够根据特定测试问题的经验继续训练。这种持续学习的目标是生成一个优秀的解决方案,而非平均多个良好方案或泛化到其他问题。因此,其学习目标和搜索子程序优先考虑最有前景的解决方案。我们称此方法为测试时训练以发现(TTT-Discover)。我们关注具有连续奖励的问题,并在数学、GPU内核工程、算法设计和生物学等多个领域报告了结果。TTT-Discover在几乎所有问题上都设定了新的最先进水平。所有结果均使用开源模型OpenAI gpt-oss-120b实现,并可通过公开代码复现。

AI 推荐理由

论文涉及测试时训练与LLM的持续学习,但未直接探讨Agent Memory机制。

论文信息
作者 Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb et al.
发布日期 2026-01-22
arXiv ID 2601.16175
相关性评分 5/10 (一般相关)