security self-evolution prompt-extraction autonomous-agents
摘要

基于大语言的自主代码智能体虽重塑软件开发,却引入了系统提示词泄露的新安全风险。本文提出 JustAsk,一种自我进化框架,仅需标准用户交互即可自主发现有效的提取策略。该方法将提取建模为在线探索问题,利用上界置信界算法选择策略,并在分层技能空间中运作。在 41 个黑盒商业模型上的评估显示,该框架能持续实现完整或近完整的系统提示词恢复,揭示了智能体系统中关键且缺乏保护的攻击面。

AI 推荐理由

论文提出自我进化框架 JustAsk,核心机制是自主发现策略并持续改进提取能力。

研究机构
中国机构未明确标注,需根据上下文推断
论文信息
作者 Xiang Zheng, Yutao Wu, Hanxun Huang, Yige Li, Xingjun Ma et al.
发布日期 2026-01-29
arXiv ID 2601.21233
相关性评分 9/10 (高度相关)