扩散模型

一句话总结： 扩散模型通过学习逆转“加噪”过程来生成逼真的数据。Stable Diffusion 和 DALL-E 是最知名的代表。

扩散模型是一类生成式 AI 模型。它通过逆转一个可控的“破坏”过程来学习生成数据。在训练期间，模型会在“正向扩散”的每个阶段看到一张图：逐步添加高斯噪声，直到图像变成纯噪声。模型学习其反向过程——也就是如何在每一步去噪。在推理时，它从随机噪声开始，逐步去噪，生成一张全新的图像。

扩散模型如何工作

正向过程：在 T 个时间步内，向训练样本逐步加入高斯噪声。到时间步 T 时，数据与随机噪声几乎无法区分。
反向过程：一个神经网络——通常是 U-Net 或 transformer——学习在每一步预测并去除噪声。
训练目标：网络最小化“预测噪声”与“实际加入噪声”之间的差异（在每个时间步上）。
采样：从纯高斯噪声出发，模型经过 T 个反向步骤逐步去噪，生成一个新的、逼真的样本。

条件控制与文本引导

扩散模型可以基于文本提示、类别标签或图像进行条件化。文生图模型使用文本编码器（例如 CLIP）来引导去噪过程。交叉注意力层会在每次去噪步骤中注入文本信号。由此实现精细控制：模型会生成与提示词描述一致的内容。文本提示的质量非常关键——参见提示词工程。

知名扩散模型

Stable Diffusion：开源文生图模型。广泛用于艺术生成以及合成数据集构建。
DALL-E 3：OpenAI 的文生图模型。在提示词遵循与照片级真实感方面表现突出。
Imagen：Google 的扩散模型，使用 LLM 进行文本编码。
Sora：OpenAI 的文生视频模型。可从文本提示生成逼真的视频片段。
AudioLDM：根据文本描述生成音频与音乐。

扩散模型与训练数据

扩散模型也常用于为其他 AI 系统生成合成训练数据。在计算机视觉中，当真实标注数据稀缺时，合成图像可以填补空白。训练扩散模型需要规模化的数十亿级图文对数据。Bright Data 的数据集可提供大规模、经过精选整理的训练数据，用于构建与微调生成式模型。

开始免费试用使用 Google 开始

全球超20000 位客户信赖之选

欢迎来到云抓取

亮数据产品组合易用且高效

高级代理基础架构。100% 符合道德标准的 IP 来源。

自动会话管理
锁定 195 个国家/地区的任意城市
无限并发会话

只需单一 API，即可告别封锁和验证码。

使用内置解锁和代理扩展动态抓取

Scraping Browser

抓取工具作为完全托管的无服务器函数运行。

使用专用的抓取工具 API 按需提取已解析的数据。

从任意公开网站获取最新的有效数据集

轻松便捷的搜索引擎按需抓取

准备好开始了吗？

开始免费试用