- 自动会话管理
- 锁定 195 个国家/地区的任意城市
- 无限并发会话
扩散模型
一句话总结: 扩散模型通过学习逆转“加噪”过程来生成逼真的数据。Stable Diffusion 和 DALL-E 是最知名的代表。
扩散模型是一类生成式 AI 模型。它通过逆转一个可控的“破坏”过程来学习生成数据。在训练期间,模型会在“正向扩散”的每个阶段看到一张图:逐步添加高斯噪声,直到图像变成纯噪声。模型学习其反向过程——也就是如何在每一步去噪。在推理时,它从随机噪声开始,逐步去噪,生成一张全新的图像。
扩散模型如何工作
- 正向过程:在 T 个时间步内,向训练样本逐步加入高斯噪声。到时间步 T 时,数据与随机噪声几乎无法区分。
- 反向过程:一个神经网络——通常是 U-Net 或 transformer——学习在每一步预测并去除噪声。
- 训练目标:网络最小化“预测噪声”与“实际加入噪声”之间的差异(在每个时间步上)。
- 采样:从纯高斯噪声出发,模型经过 T 个反向步骤逐步去噪,生成一个新的、逼真的样本。
条件控制与文本引导
扩散模型可以基于文本提示、类别标签或图像进行条件化。文生图模型使用文本编码器(例如 CLIP)来引导去噪过程。交叉注意力层会在每次去噪步骤中注入文本信号。由此实现精细控制:模型会生成与提示词描述一致的内容。文本提示的质量非常关键——参见提示词工程。
知名扩散模型
- Stable Diffusion:开源文生图模型。广泛用于艺术生成以及合成数据集构建。
- DALL-E 3:OpenAI 的文生图模型。在提示词遵循与照片级真实感方面表现突出。
- Imagen:Google 的扩散模型,使用 LLM 进行文本编码。
- Sora:OpenAI 的文生视频模型。可从文本提示生成逼真的视频片段。
- AudioLDM:根据文本描述生成音频与音乐。
扩散模型与训练数据
扩散模型也常用于为其他 AI 系统生成合成训练数据。在计算机视觉中,当真实标注数据稀缺时,合成图像可以填补空白。训练扩散模型需要规模化的数十亿级图文对数据。Bright Data 的 数据集可提供大规模、经过精选整理的训练数据,用于构建与微调生成式模型。
全球超20000 位客户信赖之选
欢迎来到 云抓取