学术报告 | PKU-Exploit

语音识别和音频生成技术分享

2025.02.13

这是一种基于扩散过程的对抗攻击方法，旨在在说话人识别中保留音色特征

它的基本组件包括编码器和解码器，负责正向和逆向扩散过程

编码器通过向数据中引入高斯噪声，生成与说话人无关的表示，而解码器则重建目标的梅尔频谱图

该方法的核心在于使用平均梅尔频谱图作为目标，以移除特定说话人的特征，生成更通用的语音表示

此技术通过用户输入的模仿声音生成新声音，提取响度、频谱质心和音高概率等三个关键信号

它整合了基于 DiT 的文本到声音生成系统，使生成的声音与视觉效果同步

Sketch2Sound强调了文字描述在捕捉声音情感和表现力方面的不足，并采用声音模仿作为一种更直观的输入方式