扩散模型

一句话总结: 扩散模型通过学习逆转“加噪”过程来生成逼真的数据。Stable Diffusion 和 DALL-E 是最知名的代表。

扩散模型是一类生成式 AI 模型。它通过逆转一个可控的“破坏”过程来学习生成数据。在训练期间,模型会在“正向扩散”的每个阶段看到一张图:逐步添加高斯噪声,直到图像变成纯噪声。模型学习其反向过程——也就是如何在每一步去噪。在推理时,它从随机噪声开始,逐步去噪,生成一张全新的图像。

扩散模型如何工作

  1. 正向过程:在 T 个时间步内,向训练样本逐步加入高斯噪声。到时间步 T 时,数据与随机噪声几乎无法区分。
  2. 反向过程:一个神经网络——通常是 U-Net 或 transformer——学习在每一步预测并去除噪声。
  3. 训练目标:网络最小化“预测噪声”与“实际加入噪声”之间的差异(在每个时间步上)。
  4. 采样:从纯高斯噪声出发,模型经过 T 个反向步骤逐步去噪,生成一个新的、逼真的样本。

条件控制与文本引导

扩散模型可以基于文本提示、类别标签或图像进行条件化。文生图模型使用文本编码器(例如 CLIP)来引导去噪过程。交叉注意力层会在每次去噪步骤中注入文本信号。由此实现精细控制:模型会生成与提示词描述一致的内容。文本提示的质量非常关键——参见提示词工程

知名扩散模型

  1. Stable Diffusion:开源文生图模型。广泛用于艺术生成以及合成数据集构建。
  2. DALL-E 3:OpenAI 的文生图模型。在提示词遵循与照片级真实感方面表现突出。
  3. Imagen:Google 的扩散模型,使用 LLM 进行文本编码。
  4. Sora:OpenAI 的文生视频模型。可从文本提示生成逼真的视频片段。
  5. AudioLDM:根据文本描述生成音频与音乐。

扩散模型与训练数据

扩散模型也常用于为其他 AI 系统生成合成训练数据。在计算机视觉中,当真实标注数据稀缺时,合成图像可以填补空白。训练扩散模型需要规模化的数十亿级图文对数据。Bright Data 的 数据集可提供大规模、经过精选整理的训练数据,用于构建与微调生成式模型。

准备好开始了吗?