基于视觉弹窗的 VLM 智能体攻击:一种显式视觉社会工程学威胁

2025.01.27

警惕屏幕上的陷阱:通过恶意弹窗攻击 VLM 计算机智能体

1. 任务简介

本次汇报介绍了一项关于“视觉-语言智能体(VLM Agents)安全性”的研究,文章已被 ACL 2025 录用。 [cite_start]随着 VLM 智能体在网页浏览和软件操作中的应用日益普及,研究者开始关注其在真实数字环境中的安全边界。本文并未关注传统的对抗样本,而是探究了恶意弹窗(Pop-ups)这一常见干扰元素对智能体决策机制的影响 [cite: 153]。

2. 研究动机

现有的针对 VLM 智能体的攻击研究主要集中在“不可见”的对抗性扰动或文本注入上。然而,在真实的 GUI 环境中,用户经常面临可见的广告和系统弹窗。 [cite_start]研究者认为,这些对人类可见的元素构成了显式的“视觉社会工程学”攻击。目前的 VLM 智能体高度依赖视觉和文本信息进行决策,它们是否会像人类一样被精心设计的弹窗欺骗或误导,是一个亟待解决的安全盲区 [cite: 153]。

3. 方法设计(攻击框架)

[cite_start]报告提出了一种结构化的对抗性弹窗生成框架,旨在欺骗智能体的语义理解和指令跟随能力。该攻击不追求隐蔽性,而是通过以下四个维度构建陷阱 [cite: 153]:

  1. 注意力钩子 (Attention Hooks):设计特定的词语或视觉元素,强行吸引智能体的注意力焦点。
  2. 恶意指令 (Instructions):在弹窗中嵌入攻击者希望智能体执行的具体操作指令。
  3. 信息横幅 (Info Banner):提供误导性的上下文信息,让弹窗看起来具有合法性或紧迫性。
  4. ALT 描述符 (ALT Descriptors):在辅助功能树(a11y tree)中注入补充文本,针对依赖文本解析的智能体进行攻击。

4. 实验与分析

评估指标: [cite_start]为了更准确地衡量攻击对端到端任务的影响,研究引入了 任务级攻击成功率 (TASR)。实验发现,即使单步操作的攻击成功率(ASR)较低(< 0.2),累积下来的 TASR 也可能非常高,表明微小的单步诱导足以导致整个任务的崩溃 [cite: 154]。

机理分析: [cite_start]通过分析智能体的思维链(Chain-of-Thought),研究揭示了攻击成功的根本原因 [cite: 154]:

本次组会演示文稿下载