学术报告 | PKU-Exploit

文生图扩散模型中的条件控制

2024.09.9

介绍了文生图（text-to-image）模型的基本结构，特别是Stable Diffusion模型的架构和工作原理。

详细阐述了ControlNet的设计与实现，强调其在生成图像时如何通过条件输入（如图像）来学习内容语义，从而提高生成图像的质量和控制能力。

通过实验定性分析，展示了ControlNet在不同条件下的表现，特别是在没有文本提示的情况下，如何利用条件图像中的内容语义进行生成。

进行了消融实验，以验证不同组件对模型性能的影响。

讨论了生成图像的实际应用场景，并提到当前研究未专门解决IP一致性的问题。

探讨了模型在学习控制能力过程中的“突然收敛”现象，说明模型在初期无法学习控制能力，随后突然获得这种技能。