学术报告 | PKU-Exploit

FMVP：基于掩码流匹配的高效对抗视频净化框架

2026.01.20

视频对抗防御新范式：FMVP——基于掩码流匹配的高效净化

1. 任务简介

[cite_start]本次汇报聚焦于“视频对抗净化（Adversarial Video Purification）”任务 [cite: 1]。 [cite_start]该任务旨在防御针对视频分类模型的对抗攻击（如 PGD、CW 等），即在不重新训练分类器的情况下，通过预处理步骤去除输入视频中的恶意微小扰动，使其恢复为清洁视频，从而保证下游模型的识别准确率 [cite: 2, 3]。

2. 研究动机

现有的视频对抗防御手段面临诸多局限，FMVP 的提出主要基于以下痛点：

[cite_start]对抗训练的局限：传统的对抗训练方法泛化能力差，且在大规模视频数据集上算力开销巨大 [cite: 3]。
[cite_start]扩散净化模型的缺陷：目前的 SOTA 方法（如 DiffPure）通常对整个视频添加噪声再去噪。这种“全局加噪”破坏了视频原有的时空一致性，导致高频细节丢失；同时，扩散模型需要数百步的迭代推理，导致处理速度极慢，难以满足视频任务的实时性需求 [cite: 3]。
目标：设计一种既能保留视频时空结构信息，又能实现快速推理的高效净化方法。

3. 方法设计（FMVP 框架）

报告详细介绍了一种名为 FMVP (Flow Matching Video Purification) 的新型框架，其核心思想是“掩码 + 流匹配”：

1）掩码机制（Masking Strategy）

核心理念：不同于扩散模型破坏所有像素，FMVP 认为未受攻击影响的区域应被保留。
[cite_start]实现方式：采用随机掩码策略（Random Masking），将视频切分为 Token，仅对部分被掩盖的区域（Masked Region）进行重构，而保留未掩盖区域（Unmasked Region）的原始清洁信息。这有效利用了视频的空间冗余性和时间相关性作为先验条件 [cite: 4, 5]。

2）流匹配生成（Flow Matching）

模型架构：利用基于最优传输（Optimal Transport）的流匹配模型来生成掩码区域的内容。
[cite_start]优势：相比于扩散模型的随机路径，流匹配构建了从噪声到数据的直线轨迹（Straight Path），使得生成过程更加确定和高效，显著减少了所需的推理步数 [cite: 4, 6]。
[cite_start]条件生成：模型的输入不仅包含掩码后的噪声，还融合了未掩码区域的条件特征，确保填补的内容与周围环境在时空上保持一致 [cite: 6]。

4. 实施细节

掩码策略设计：

[cite_start]报告探讨了多种掩码模式对性能的影响，包括空间掩码（随机 Patch）、时间掩码（随机帧）以及时空混合掩码。实验发现合理的掩码率（如 50%-75%）能在去噪能力与信息保留之间取得最佳平衡 [cite: 8]。

推理加速：

[cite_start]利用 ODE 求解器（如 Euler 或 RK4）进行采样。由于流匹配的轨迹平直，FMVP 仅需 10-20 步即可完成高质量重建，而传统扩散模型通常需要 50-100 步 [cite: 12]。

5. 实验与结论

主要实验结果：

[cite_start]鲁棒性提升：在 UCF-101 和 Kinetics-400 数据集上，面对 $L_\infty$ 和 $L_2$ 范数的强攻击（如 PGD, CW, AutoAttack），FMVP 的鲁棒准确率显著优于 DiffPure 和 VideoMAE 等基线模型 [cite: 11]。
[cite_start]质量保持：在 PSNR、SSIM 和 LPIPS 等指标上，FMVP 重建的视频质量更高，频谱分析显示其能更有效地去除对抗高频噪声并保留语义信息 [cite: 10]。
[cite_start]效率飞跃：在推理速度上，FMVP（10步）处理每个视频仅需 1.44秒，相比 DiffPure (DDPM) 的 35.91秒，速度提升了约 25倍 [cite: 12]。

总结： FMVP 证明了“掩码生成”是解决视频对抗净化中“破坏-重建”矛盾的有效途径，结合流匹配技术，成功实现了高鲁棒性、高视频质量与高推理效率的统一。

本次组会演示文稿下载