摘要
随着大型语言模型(LLMs)的快速发展,传统的静态基准测试方法已逐渐暴露出数据饱和和泄露的问题。本文提出了一种基于社交推理游戏Spyfall的动态评估框架,用于评估多语言和跨文化能力。在此框架中,模型需要通过战略性对话来识别秘密特工或避免被发现,并利用与文化相关的地点或本地食物等信息。实验结果表明,基于游戏的排名与Chatbot Arena的结果高度一致,但在非英语环境中存在显著性能差距:模型在处理本地特定实体时通常表现较差,并且在非英语语言中常难以遵循规则或保持策略完整性。本文证明了这种基于游戏的方法为传统NLP基准提供了一种可扩展、抗数据泄露且具有文化细微差别的替代方案。
AI 推荐理由
论文涉及多语言环境下LLM的评估,与Agent Memory在非英语语境中的表现相关。
论文信息