摘要
基于大语言的自主代码智能体虽重塑软件开发,却引入了系统提示词泄露的新安全风险。本文提出 JustAsk,一种自我进化框架,仅需标准用户交互即可自主发现有效的提取策略。该方法将提取建模为在线探索问题,利用上界置信界算法选择策略,并在分层技能空间中运作。在 41 个黑盒商业模型上的评估显示,该框架能持续实现完整或近完整的系统提示词恢复,揭示了智能体系统中关键且缺乏保护的攻击面。
AI 推荐理由
论文提出自我进化框架 JustAsk,核心机制是自主发现策略并持续改进提取能力。
研究机构
中国机构未明确标注,需根据上下文推断
论文信息