摘要
大型语言模型表现出对提示结构的惊人敏感性,但其背后的机制仍不明确。本文深入研究了一个显著案例:在多项选择题回答任务中,将上下文置于问题和选项之前(CQO)比相反顺序(QOC)高出14%以上的性能,且在多种模型和数据集上保持一致。通过系统性的架构分析,我们确定因果注意力是核心机制:在QOC提示中,因果掩码阻止选项标记访问上下文,导致信息瓶颈,使上下文对选项不可见。
AI 推荐理由
论文探讨了因果注意力机制对上下文信息处理的影响,与Agent Memory中的信息可见性相关。
论文信息