LLM 幻觉检测 多智能体系统 教育内容生成
摘要

大型语言模型(LLMs)在生成教育类多项选择题(MCQs)时容易出现幻觉问题,表现为流畅但错误或不连贯的输出。本文识别了MCQ生成中的四种主要幻觉类型:推理不一致、不可解性、事实错误和数学错误。为解决这一问题,我们提出了一种无幻觉的多智能体生成框架,将MCQ生成分解为可验证的离散阶段,并利用基于规则和基于LLM的检测代理以及幻觉评分指标来优化题目质量。我们将MCQ生成重新定义为一个优化任务,旨在最小化幻觉风险,同时最大化有效性、可回答性和成本效率。此外,我们引入了一个由智能体主导的精炼过程,通过反事实推理和思维链(CoT)迭代改进题目生成中的幻觉问题。我们在一组与AP课程对齐的STEM题目上进行了评估,结果表明,与基线生成方法相比,我们的系统将幻觉率降低了90%以上,同时保留了题目的教育价值和风格。研究结果表明,结构化的多智能体协作可以大规模缓解教育内容创作中的幻觉问题,为更可靠的LLM驱动的学习工具铺平道路。

AI 推荐理由

论文涉及多智能体协作以减少幻觉,与Agent Memory相关但非核心主题。

论文信息
作者 Nicholas X. Wang, Aggelos K. Katsaggelos
发布日期 2026-01-13
arXiv ID 2601.14280
相关性评分 6/10 (相关)