摘要
大型语言模型在通用任务表现优异,但在特定司法辖区的法律推理能力尚待探索。本文提出 TW-LegalBench,利用台湾公开法律语料填补评估空白。该基准包含三类任务:涵盖 18 个专业领域的 1.6 万道选择题、117 道带评分标准的论述题,以及超 1.4 万个法律判决预测实例。评估结果显示,顶尖模型虽能通过律师资格考试,但未达法官检察官水平;且在判决预测中难以准确引用法条,表明可靠法律文本生成仍具挑战。
AI 推荐理由
论文核心评估法律推理能力,虽侧重基准测试,但推理是关键部分。
研究机构
University of Rochester, Rochester, NY, USA
National Taiwan University, Taipei, Taiwan
NVIDIA, Santa Clara CA, USA
National Taiwan University
论文信息