基于即插即用适配器与多模态大模型的可解释深度伪造视频检测

2025.12.9

深度伪造视频检测:从泛化性到可解释性

1. 任务简介

本次汇报聚焦于深度伪造视频(Deepfake Video)检测任务,重点解决当前领域面临的两大核心难题:

  1. 泛化性与成本平衡:如何在不依赖高昂计算成本的视频模型前提下,利用强大的图像骨干网络(Backbone)实现对时序伪造特征的高效捕捉,并提升跨数据集与跨伪造方法的泛化能力 。
  2. 可解释性与幻觉抑制:如何利用多模态大语言模型(MLLM)不仅输出真假标签,还能提供基于证据的可靠推理过程,同时解决大模型在视频检测中常见的“幻觉”问题。

2. 研究动机

随着 AIGC 技术的发展,深度伪造视频带来的风险日益严峻,现有方法存在以下局限:

针对泛化性问题(Paper 1):

针对可解释性问题(Paper 2):

3. 方法设计(即插即用适配器 + 可解释大模型)

报告详细介绍了两套针对性解决方案:

1)基于即插即用适配器的泛化检测(Paper 1: CVPR 2025)

2)基于多模态大模型的可解释检测(Paper 2: EDVD-LLaMA)

4. 实施细节

Paper 1 实施细节:

Paper 2 实施细节:

5. 实验与结论

Paper 1 实验结果:

Paper 2 实验结果: