从知识到推断：GlobalHealthAtlas 上专业推理的缩放定律

Public Health Reasoning Benchmark Dataset Construction LLM Evaluation

摘要

公共卫生推理需基于科学证据、专家共识及安全约束进行群体层面推断，但作为结构化机器学习问题尚属空白。本文推出 GlobalHealthAtlas，一个涵盖 15 个领域、17 种语言的大规模多语数据集，按难度分层以支持监督学习与评估。提出 LLM 辅助构建流程以确保数据质量，并蒸馏出领域对齐的评估器，从准确性、推理深度等六维度衡量模型表现。该工作推动了安全关键型公共卫生推理的可复现训练与评估。

AI 推荐理由

论文核心研究公共卫生领域的专业推理能力，构建数据集与评估器以量化推理表现。

研究机构

论文信息

作者 Zhaokun Yan, Zhaohan Liu, Wuzheng Dong, Lijie Feng, Chengxiao Dai

发布日期 2026-01-31

arXiv ID 2602.00491