2025.02.13
这是一种基于扩散过程的对抗攻击方法,旨在在说话人识别中保留音色特征
它的基本组件包括编码器和解码器,负责正向和逆向扩散过程
编码器通过向数据中引入高斯噪声,生成与说话人无关的表示,而解码器则重建目标的梅尔频谱图
该方法的核心在于使用平均梅尔频谱图作为目标,以移除特定说话人的特征,生成更通用的语音表示
此技术通过用户输入的模仿声音生成新声音,提取响度、频谱质心和音高概率等三个关键信号
它整合了基于 DiT 的文本到声音生成系统,使生成的声音与视觉效果同步
Sketch2Sound强调了文字描述在捕捉声音情感和表现力方面的不足,并采用声音模仿作为一种更直观的输入方式