微调语言模型以知晓其所知

metacognition self-alignment evolution strategy knowledge awareness

摘要

元认知是智能的关键组成部分，特指对自身知识状态的感知。尽管人类依赖共享内部记忆来回答问题并报告知识状态，但大语言模型在此方面的依赖性尚未得到充分探索。本研究提出了一种利用双重提示法测量元认知能力的框架，并引入了用于元认知对齐的进化策略（ESMA），旨在将模型的内部知识与其显性行为紧密绑定。实验表明，ESMA 在多种未训练场景中展现出强大的泛化能力，显著提升了模型引用自身知识的能力。参数分析进一步揭示，这些改进归因于一组稀疏的关键参数修改。

AI 推荐理由

提出 ESMA 策略通过进化算法对齐模型元认知，属于自我改进与自适应的核心研究。

研究机构

Department of Computer Science, University of Texas at Austin, TX, USA

论文信息

作者 Sangjun Park, Elliot Meyerson, Xin Qiu, Risto Miikkulainen

发布日期 2026-02-02

arXiv ID 2602.02605