摘要
针对法律判决因案情复杂及概念抽象可能存在的错误,以及现有上诉审查机制面临的效率压力,本文提出了一项新任务“上诉审查”。该任务不同于传统的判决预测或文档生成,旨在对已发布的判决进行异常检测,即识别、分类并纠正错误,以评估模型在法律实践中的诊断推理能力与可靠性。为此,作者构建了包含 8700 个精细标注判决和 34617 条补充语料的新基准数据集 AR-BENCH。通过对 14 个大语言模型的评估,揭示了现有模型在识别法律适用错误方面的关键局限性,为未来改进提供了实证依据。
AI 推荐理由
论文核心聚焦法律场景下的诊断性推理,评估模型检测、分类及纠正判决错误的能力。
研究机构
SKLCSE, Beihang University, China
论文信息