2025.01.27
本次汇报介绍了一项关于“视觉-语言智能体(VLM Agents)安全性”的研究,文章已被 ACL 2025 录用。 [cite_start]随着 VLM 智能体在网页浏览和软件操作中的应用日益普及,研究者开始关注其在真实数字环境中的安全边界。本文并未关注传统的对抗样本,而是探究了恶意弹窗(Pop-ups)这一常见干扰元素对智能体决策机制的影响 [cite: 153]。
现有的针对 VLM 智能体的攻击研究主要集中在“不可见”的对抗性扰动或文本注入上。然而,在真实的 GUI 环境中,用户经常面临可见的广告和系统弹窗。 [cite_start]研究者认为,这些对人类可见的元素构成了显式的“视觉社会工程学”攻击。目前的 VLM 智能体高度依赖视觉和文本信息进行决策,它们是否会像人类一样被精心设计的弹窗欺骗或误导,是一个亟待解决的安全盲区 [cite: 153]。
[cite_start]报告提出了一种结构化的对抗性弹窗生成框架,旨在欺骗智能体的语义理解和指令跟随能力。该攻击不追求隐蔽性,而是通过以下四个维度构建陷阱 [cite: 153]:
评估指标: [cite_start]为了更准确地衡量攻击对端到端任务的影响,研究引入了 任务级攻击成功率 (TASR)。实验发现,即使单步操作的攻击成功率(ASR)较低(< 0.2),累积下来的 TASR 也可能非常高,表明微小的单步诱导足以导致整个任务的崩溃 [cite: 154]。
机理分析: [cite_start]通过分析智能体的思维链(Chain-of-Thought),研究揭示了攻击成功的根本原因 [cite: 154]: