2025.11.9
以“多模态深度伪造检测”为核心任务:面向涉及人脸与语音的音视频内容,检测换脸、口型重演、语音克隆及跨模态联合伪造等多种攻击形态;既关注单模态篡改(仅视频 / 仅音频),也关注多模态不一致(声画不同步、文音不符),目标是在低质量视频和未知伪造方法下依然保持稳健的检测能力。
深度伪造技术快速发展,带来隐私泄露、金融欺诈与舆论操纵等风险,而现有检测方法存在三类突出问题: (1)泛化性不足:对特定伪造方法和数据集高度拟合,跨库、跨方法检测性能显著下降; (2)模态与身份信息利用不足:多依赖单一视觉伪影,忽视音频与文本模态,以及真实个体的身份先验; (3)数据与特征设计不完备:缺乏覆盖多模态、多类型攻击、且内置身份参考库的高质量数据集,模型往往学习到与伪造无关的背景或身份偏差。
报告从两条主线展开方法设计:
1)身份驱动的多模态检测
POI-Forensics:只在真实说话人视频上进行对比学习,让同一关键人物(POI)的音视频嵌入更接近、不同人物更远,从而在推理时通过“音 / 视 / 音视联合相似度”检测单模态与多模态伪造;
IDForge 数据集:构建覆盖 54 位名人、11 种多模态造假组合的大规模身份驱动数据集,并为每个身份提供大量真实参考片段;
R-MFDN:在此基础上设计多模态编码 + 渐进式融合 + 身份感知与跨模态对比学习的检测网络,引入参考辅助的轻量对齐,实现“真假 + 伪造类型”联合判别。
2)通用伪造特征挖掘与泛化
UCF:通过编码器拆分内容特征与“通用伪造指纹 / 特定伪造指纹”,配合条件解码器重建与多任务分类 + 对比正则,显式区分跨方法共享的伪造线索与方法特异纹理,从而提升跨库泛化;
Style Latent Flows(SLF):利用 StyleGAN 反演得到的风格潜向量,建模真实与伪造视频在风格时间流上的方差差异,结合 StyleGRU、注意力融合与时序 Transformer,以高层语义运动模式替代像素级伪影作为检测信号。
在实现上,POI-Forensics 将视频切成 3 秒片段,提取人脸帧特征与音频谱图特征,经双 ResNet 编码为 256 维向量,并基于对比学习构建人物级嵌入空间;测试时使用参考集统计量归一化相似度,并通过固定假阳性率设定阈值完成决策。 IDForge / R-MFDN 方面,视觉采用帧分组 + Transformer 的时序编码,音频使用 AST,文本用 BERT 获取嵌入,再通过交叉注意力实现“文–音–视”渐进式融合;利用 InfoNCE 实现身份感知与跨模态对比学习,并通过参考样本的轻量线性融合进一步对齐身份特征。 UCF 通过条件解码器(AdaIN 调制)实现“内容 + 指纹”重组,结合自重建与交叉重建损失保证解耦有效,同时对 common / specific 特征分别施加真假二分类与伪造方法多分类、以及成对三元组损失。 SLF 则先用 pSp 提取逐帧风格潜向量,构造风格流并经 StyleGRU 学习时间特征,再与 3D ResNet 提取的内容特征通过注意力模块融合,最后送入时间 Transformer 做二分类。
实验表明:
POI-Forensics 在高、低质量视频上均超越现有 SOTA,尤其在低质量与对抗攻击场景中 AUC 提升显著;
在自建 IDForge 数据集与公开数据集(如 FakeAVCeleb)上,R-MFDN 在 ACC、AUC 等指标上优于多种多模态基线,身份对比与跨模态对比均带来明显增益;
UCF 与 SLF 在“训练于 FF++、测试于多外部数据集”和“留一伪造方法”场景下显著提升跨库与跨方法泛化性能,验证了通用伪造特征与风格时间流建模的有效性。
本次组会内容下载链接