摘要
近年来,大语言模型(LLMs)的进步使得自动化生成选择题(MCQ)变得越来越可行;然而,可靠地生成满足特定认知需求的问题仍然是一个挑战。为了解决这一问题,我们引入了ReQUESTA,这是一种混合多智能体框架,用于系统性地生成具有认知多样性的选择题,涵盖基于文本、推理和主旨理解等方面。ReQUESTA将选择题创作分解为专门的子任务,并协调基于LLM的代理与基于规则的组件,以支持规划、受控生成、迭代评估和后处理。我们在一项大规模阅读理解研究中对框架进行了评估,使用学术说明性文本,将ReQUESTA生成的选择题与单次GPT-5零样本基线生成的选择题进行比较。通过对学习者回答的心理测量分析评估了题目难度和区分度,同时专家评分员从多个维度(包括主题相关性和干扰项质量)评估了问题质量。结果表明,ReQUESTA生成的题目更具挑战性、区分度更高,并且更符合整体阅读理解表现。专家评估还表明,这些题目与核心概念的契合度更强,干扰项的语言一致性和语义合理性也更优,尤其是在推理类问题上。这些发现表明,混合的智能体协调可以系统性地提高基于LLM生成的可靠性与可控性,突显了工作流设计作为结构化生成工件的关键杠杆。
AI 推荐理由
论文涉及多智能体框架,但未直接研究记忆机制,仅在生成流程中隐含记忆相关操作。
论文信息