学术报告 | PKU-Exploit

基于视觉弹窗的 VLM 智能体攻击：一种显式视觉社会工程学威胁

2025.01.27

警惕屏幕上的陷阱：通过恶意弹窗攻击 VLM 计算机智能体

1. 任务简介

本次汇报介绍了一项关于“视觉-语言智能体（VLM Agents）安全性”的研究，文章已被 ACL 2025 录用。 [cite_start]随着 VLM 智能体在网页浏览和软件操作中的应用日益普及，研究者开始关注其在真实数字环境中的安全边界。本文并未关注传统的对抗样本，而是探究了恶意弹窗（Pop-ups）这一常见干扰元素对智能体决策机制的影响 [cite: 153]。

2. 研究动机

现有的针对 VLM 智能体的攻击研究主要集中在“不可见”的对抗性扰动或文本注入上。然而，在真实的 GUI 环境中，用户经常面临可见的广告和系统弹窗。 [cite_start]研究者认为，这些对人类可见的元素构成了显式的“视觉社会工程学”攻击。目前的 VLM 智能体高度依赖视觉和文本信息进行决策，它们是否会像人类一样被精心设计的弹窗欺骗或误导，是一个亟待解决的安全盲区 [cite: 153]。

3. 方法设计（攻击框架）

[cite_start]报告提出了一种结构化的对抗性弹窗生成框架，旨在欺骗智能体的语义理解和指令跟随能力。该攻击不追求隐蔽性，而是通过以下四个维度构建陷阱 [cite: 153]：

注意力钩子 (Attention Hooks)：设计特定的词语或视觉元素，强行吸引智能体的注意力焦点。
恶意指令 (Instructions)：在弹窗中嵌入攻击者希望智能体执行的具体操作指令。
信息横幅 (Info Banner)：提供误导性的上下文信息，让弹窗看起来具有合法性或紧迫性。
ALT 描述符 (ALT Descriptors)：在辅助功能树（a11y tree）中注入补充文本，针对依赖文本解析的智能体进行攻击。

4. 实验与分析

评估指标： [cite_start]为了更准确地衡量攻击对端到端任务的影响，研究引入了 任务级攻击成功率 (TASR)。实验发现，即使单步操作的攻击成功率（ASR）较低（< 0.2），累积下来的 TASR 也可能非常高，表明微小的单步诱导足以导致整个任务的崩溃 [cite: 154]。

机理分析： [cite_start]通过分析智能体的思维链（Chain-of-Thought），研究揭示了攻击成功的根本原因 [cite: 154]：

注意力偏移：未受攻击时，智能体的思维较为抽象且具有规划性；受攻击后，智能体的思维变得极度具体，过分关注弹窗内的坐标、标签或“确定”按钮。
盲目跟随：智能体表现出对 UI 上下文理解的不足，它们倾向于放弃原有的推理过程，盲目遵循弹窗中的恶意“指令”进行操作。

本次组会演示文稿下载