AR-BENCH：通过判决错误检测、分类与修正基准测试法律推理能力

Legal AI Error Detection Diagnostic Reasoning Benchmark

摘要

针对法律判决因案情复杂及概念抽象可能存在的错误，以及现有上诉审查机制面临的效率压力，本文提出了一项新任务“上诉审查”。该任务不同于传统的判决预测或文档生成，旨在对已发布的判决进行异常检测，即识别、分类并纠正错误，以评估模型在法律实践中的诊断推理能力与可靠性。为此，作者构建了包含 8700 个精细标注判决和 34617 条补充语料的新基准数据集 AR-BENCH。通过对 14 个大语言模型的评估，揭示了现有模型在识别法律适用错误方面的关键局限性，为未来改进提供了实证依据。

AI 推荐理由

论文核心聚焦法律场景下的诊断性推理，评估模型检测、分类及纠正判决错误的能力。

研究机构

SKLCSE, Beihang University, China

论文信息

作者 Yifei Li, Richong Zhang, Wanyu Tu, Zhijie Nie, Haokun Luo et al.

发布日期 2026-01-30

arXiv ID 2601.22742