FMVP:基于掩码流匹配的高效对抗视频净化框架
2026.01.20
视频对抗防御新范式:FMVP——基于掩码流匹配的高效净化
1. 任务简介
[cite_start]本次汇报聚焦于“视频对抗净化(Adversarial Video Purification)”任务 [cite: 1]。
[cite_start]该任务旨在防御针对视频分类模型的对抗攻击(如 PGD、CW 等),即在不重新训练分类器的情况下,通过预处理步骤去除输入视频中的恶意微小扰动,使其恢复为清洁视频,从而保证下游模型的识别准确率 [cite: 2, 3]。
2. 研究动机
现有的视频对抗防御手段面临诸多局限,FMVP 的提出主要基于以下痛点:
- [cite_start]对抗训练的局限:传统的对抗训练方法泛化能力差,且在大规模视频数据集上算力开销巨大 [cite: 3]。
- [cite_start]扩散净化模型的缺陷:目前的 SOTA 方法(如 DiffPure)通常对整个视频添加噪声再去噪。这种“全局加噪”破坏了视频原有的时空一致性,导致高频细节丢失;同时,扩散模型需要数百步的迭代推理,导致处理速度极慢,难以满足视频任务的实时性需求 [cite: 3]。
- 目标:设计一种既能保留视频时空结构信息,又能实现快速推理的高效净化方法。
3. 方法设计(FMVP 框架)
报告详细介绍了一种名为 FMVP (Flow Matching Video Purification) 的新型框架,其核心思想是“掩码 + 流匹配”:
1)掩码机制(Masking Strategy)
- 核心理念:不同于扩散模型破坏所有像素,FMVP 认为未受攻击影响的区域应被保留。
- [cite_start]实现方式:采用随机掩码策略(Random Masking),将视频切分为 Token,仅对部分被掩盖的区域(Masked Region)进行重构,而保留未掩盖区域(Unmasked Region)的原始清洁信息。这有效利用了视频的空间冗余性和时间相关性作为先验条件 [cite: 4, 5]。
2)流匹配生成(Flow Matching)
- 模型架构:利用基于最优传输(Optimal Transport)的流匹配模型来生成掩码区域的内容。
- [cite_start]优势:相比于扩散模型的随机路径,流匹配构建了从噪声到数据的直线轨迹(Straight Path),使得生成过程更加确定和高效,显著减少了所需的推理步数 [cite: 4, 6]。
- [cite_start]条件生成:模型的输入不仅包含掩码后的噪声,还融合了未掩码区域的条件特征,确保填补的内容与周围环境在时空上保持一致 [cite: 6]。
4. 实施细节
掩码策略设计:
- [cite_start]报告探讨了多种掩码模式对性能的影响,包括空间掩码(随机 Patch)、时间掩码(随机帧)以及时空混合掩码。实验发现合理的掩码率(如 50%-75%)能在去噪能力与信息保留之间取得最佳平衡 [cite: 8]。
推理加速:
- [cite_start]利用 ODE 求解器(如 Euler 或 RK4)进行采样。由于流匹配的轨迹平直,FMVP 仅需 10-20 步即可完成高质量重建,而传统扩散模型通常需要 50-100 步 [cite: 12]。
5. 实验与结论
主要实验结果:
- [cite_start]鲁棒性提升:在 UCF-101 和 Kinetics-400 数据集上,面对 $L_\infty$ 和 $L_2$ 范数的强攻击(如 PGD, CW, AutoAttack),FMVP 的鲁棒准确率显著优于 DiffPure 和 VideoMAE 等基线模型 [cite: 11]。
- [cite_start]质量保持:在 PSNR、SSIM 和 LPIPS 等指标上,FMVP 重建的视频质量更高,频谱分析显示其能更有效地去除对抗高频噪声并保留语义信息 [cite: 10]。
- [cite_start]效率飞跃:在推理速度上,FMVP(10步)处理每个视频仅需 1.44秒,相比 DiffPure (DDPM) 的 35.91秒,速度提升了约 25倍 [cite: 12]。
总结:
FMVP 证明了“掩码生成”是解决视频对抗净化中“破坏-重建”矛盾的有效途径,结合流匹配技术,成功实现了高鲁棒性、高视频质量与高推理效率的统一。
本次组会演示文稿下载