摘要
大型语言模型(LLMs)越来越多地应用于隐私敏感和个性化场景,但上下文长度在塑造隐私泄露和个人化效果中的作用尚未得到充分研究。我们引入了一个大规模基准测试PAPerBench,系统研究上下文长度增加如何影响LLMs的个性化质量和隐私保护。该基准包含约29,000个实例,上下文长度从1K到256K tokens不等,共生成377K个评估问题。它联合评估了不同场景下的个性化性能和隐私风险,支持对长上下文模型行为的可控分析。对当前最先进的LLMs进行广泛评估,发现随着上下文长度增加,个性化和隐私保护性能均出现退化。我们进一步提供了关于上下文扩展下注意力稀释的理论分析,将这种行为解释为固定容量Transformer中软注意力的固有局限性。实证和理论结果共同表明,当前模型存在一个普遍的扩展差距——长上下文,少关注。我们发布该基准以支持可重复的评估和未来关于可扩展隐私与个性化的研究。
AI 推荐理由
论文探讨了上下文长度对隐私和个性化的影响,涉及注意力机制的稀释问题,与Agent Memory相关。
论文信息