evaluation framework self-improvement alignment rubrics
摘要

随着大语言模型向开放自主智能体演进,评估与引导机制需同步发展。本文提出“评分准则”作为统一框架,将其定义为将复杂质量判断转化为结构化可操作标准的显式准则集。研究系统梳理了现有设计,分析其在评估、训练及内在自我改进三个层面的作用:分解整体判断、提供过程级密集反馈信号、以及驱动动态自我提升。该工作旨在通过透明化评估,将人类价值期望转化为机器可学习信号, bridging 人类意图与机器行为。

AI 推荐理由

论文核心探讨 Rubrics 如何驱动模型自我改进与动态进化,属于自我进化范畴。

研究机构
Research Center for Social Computing and Interactive Robotics, Harbin Institute of Technology Department of Computer Science and Technology, Institute for AI, Tsinghua University
论文信息
作者 Hao Chen, Ziyu Han, Yukun Yan, Qingfu Zhu, Maosong Sun et al.
发布日期 2026-06-07
arXiv ID 2606.08625
相关性评分 8/10 (高度相关)