Legal Benchmark Legal Reasoning Evaluation Taiwanese Law
摘要

大型语言模型在通用任务表现优异,但在特定司法辖区的法律推理能力尚待探索。本文提出 TW-LegalBench,利用台湾公开法律语料填补评估空白。该基准包含三类任务:涵盖 18 个专业领域的 1.6 万道选择题、117 道带评分标准的论述题,以及超 1.4 万个法律判决预测实例。评估结果显示,顶尖模型虽能通过律师资格考试,但未达法官检察官水平;且在判决预测中难以准确引用法条,表明可靠法律文本生成仍具挑战。

AI 推荐理由

论文核心评估法律推理能力,虽侧重基准测试,但推理是关键部分。

研究机构
University of Rochester, Rochester, NY, USA National Taiwan University, Taipei, Taiwan NVIDIA, Santa Clara CA, USA National Taiwan University
论文信息
作者 Fei-Yueh Chen, Chun Huang Lin, Chan Wei Hsu, Kuan Hsuan Yeh, Zih-Ching Chen et al.
发布日期 2026-06-17
arXiv ID 2606.18699
相关性评分 8/10 (高度相关)