生成式 AI

一句话总结： 生成式 AI 通过从海量训练数据集中学习统计模式，来创作全新内容——文本、图像、音频或视频。

生成式 AI指能够产出原创内容的 AI 系统。它们会学习训练数据中的模式、结构与风格，然后生成符合这些模式的新样本。ChatGPT 用来写文本；Stable Diffusion 用来生成图片；Sora 用来生成视频——这些都属于生成式 AI。随着 ChatGPT 于 2022 年 11 月发布，这项技术开始走向大众。

核心架构

大语言模型（LLMs）：基于 Transformer，在海量文本语料上训练。通过预测下一个 token 来生成文本。参见：large language model。
扩散模型：通过学习逆转加噪过程来生成图像、音频或视频。Stable Diffusion 与 DALL-E 采用该方法。参见：diffusion model。
生成对抗网络（GANs）：生成器网络负责生成数据；判别器负责判断其真实性。对抗式训练推动生成质量提升。
变分自编码器（VAEs）：将数据编码到压缩的潜在空间，再解码生成新样本。

生成式 AI 可以生成什么

文本：文章、摘要、代码、邮件、法律文档与对话内容。
图像：照片级真实图片、插画与产品效果图（mockups）。
音频：通过文本提示生成音乐、配音与音效。
视频：从文本或图像输入生成短视频片段与动画。
3D 对象：用于游戏、产品设计与虚拟环境的网格（mesh）。
合成数据：当真实数据稀缺或敏感时，用于 AI 训练的合成数据集。

生成式 AI 如何训练

生成式模型需要规模巨大且高质量的数据集。文本模型通常在来自网页、书籍与代码的数千亿 token 上训练；图像模型通常在数十亿级的图像-描述对上训练。数据质量会直接决定输出质量：低质量或带偏见的数据会产生低质量或带偏见的输出。RLHF 等对齐技术可引导模型生成更有帮助、更安全的回答。

生成式 AI 的应用

内容创作：自动化写作、设计与媒体生产。
软件开发：代码生成、自动补全与调试。
药物研发：为制药研究生成新的分子结构。
机器人：生成合成训练环境与运动规划。
数据增强：生成更多训练样本，以提升模型鲁棒性。

Bright Data 的数据集提供经过精选整理的网页数据，用于训练与微调生成式模型。另请参见：training data、prompt engineering。

开始免费试用使用 Google 开始

全球超20000 位客户信赖之选

欢迎来到云抓取

亮数据产品组合易用且高效

高级代理基础架构。100% 符合道德标准的 IP 来源。

自动会话管理
锁定 195 个国家/地区的任意城市
无限并发会话

只需单一 API，即可告别封锁和验证码。

使用内置解锁和代理扩展动态抓取

Scraping Browser

抓取工具作为完全托管的无服务器函数运行。

使用专用的抓取工具 API 按需提取已解析的数据。

从任意公开网站获取最新的有效数据集

轻松便捷的搜索引擎按需抓取

准备好开始了吗？

开始免费试用