长上下文处理 模型性能评估 抑郁症检测 LLM精度分析
摘要

随着大语言模型(LLMs)上下文窗口的显著扩展,这些模型理论上能够一次性处理数百万个token。然而,研究表明,理论容量与模型在长上下文中稳健利用信息的实际能力之间存在显著差距,尤其是在需要全面理解大量细节的任务中。本文评估了四款最先进的模型(Grok-4、GPT-4、Gemini 2.5和GPT-5)在长短期上下文任务中的表现。为此,使用了三个数据集:两个补充数据集用于检索食谱和数学问题,以及一个包含20K条社交媒体帖子的主要数据集用于抑郁症检测。结果表明,当社交媒体数据集的输入量超过5K条帖子(70K token)时,所有模型的表现显著下降,在20K条帖子时准确率降至约50-53%。值得注意的是,尽管GPT-5模型的准确性急剧下降,但其精确度仍保持在约95%,这一特性可能对抑郁症检测等敏感应用非常有效。这项研究还表明,较新的模型已基本解决了“中间丢失”问题。该研究强调了理论容量与复杂、高数据量任务实际性能之间的差距,并突出了除简单准确率外的其他指标在实际应用中的重要性。

AI 推荐理由

论文探讨了LLM在长上下文任务中的性能,涉及记忆利用问题,但非核心Memory机制研究。

论文信息
作者 Nima Esmi, Maryam Nezhad-Moghaddam, Fatemeh Borhani, Asadollah Shahbahrami, Amin Daemdoost et al.
发布日期 2026-02-15
arXiv ID 2602.14188
相关性评分 6/10 (相关)