TW-LegalBench：衡量台湾法律理解能力

Legal Benchmark Legal Reasoning Evaluation Taiwanese Law

摘要

大型语言模型在通用任务表现优异，但在特定司法辖区的法律推理能力尚待探索。本文提出 TW-LegalBench，利用台湾公开法律语料填补评估空白。该基准包含三类任务：涵盖 18 个专业领域的 1.6 万道选择题、117 道带评分标准的论述题，以及超 1.4 万个法律判决预测实例。评估结果显示，顶尖模型虽能通过律师资格考试，但未达法官检察官水平；且在判决预测中难以准确引用法条，表明可靠法律文本生成仍具挑战。

AI 推荐理由

论文核心评估法律推理能力，虽侧重基准测试，但推理是关键部分。

研究机构

University of Rochester, Rochester, NY, USA National Taiwan University, Taipei, Taiwan NVIDIA, Santa Clara CA, USA National Taiwan University

论文信息

作者 Fei-Yueh Chen, Chun Huang Lin, Chan Wei Hsu, Kuan Hsuan Yeh, Zih-Ching Chen et al.

发布日期 2026-06-17

arXiv ID 2606.18699