生成式 AI

一句话总结: 生成式 AI 通过从海量训练数据集中学习统计模式,来创作全新内容——文本、图像、音频或视频。

生成式 AI指能够产出原创内容的 AI 系统。它们会学习训练数据中的模式、结构与风格,然后生成符合这些模式的新样本。ChatGPT 用来写文本;Stable Diffusion 用来生成图片;Sora 用来生成视频——这些都属于生成式 AI。随着 ChatGPT 于 2022 年 11 月发布,这项技术开始走向大众。

核心架构

  1. 大语言模型(LLMs):基于 Transformer,在海量文本语料上训练。通过预测下一个 token 来生成文本。参见:large language model
  2. 扩散模型:通过学习逆转加噪过程来生成图像、音频或视频。Stable Diffusion 与 DALL-E 采用该方法。参见:diffusion model
  3. 生成对抗网络(GANs):生成器网络负责生成数据;判别器负责判断其真实性。对抗式训练推动生成质量提升。
  4. 变分自编码器(VAEs):将数据编码到压缩的潜在空间,再解码生成新样本。

生成式 AI 可以生成什么

  1. 文本:文章、摘要、代码、邮件、法律文档与对话内容。
  2. 图像:照片级真实图片、插画与产品效果图(mockups)。
  3. 音频:通过文本提示生成音乐、配音与音效。
  4. 视频:从文本或图像输入生成短视频片段与动画。
  5. 3D 对象:用于游戏、产品设计与虚拟环境的网格(mesh)。
  6. 合成数据:当真实数据稀缺或敏感时,用于 AI 训练的合成数据集

生成式 AI 如何训练

生成式模型需要规模巨大且高质量的数据集。文本模型通常在来自网页、书籍与代码的数千亿 token 上训练;图像模型通常在数十亿级的图像-描述对上训练。数据质量会直接决定输出质量:低质量或带偏见的数据会产生低质量或带偏见的输出。RLHF 等对齐技术可引导模型生成更有帮助、更安全的回答。

生成式 AI 的应用

  1. 内容创作:自动化写作、设计与媒体生产。
  2. 软件开发:代码生成、自动补全与调试。
  3. 药物研发:为制药研究生成新的分子结构。
  4. 机器人:生成合成训练环境与运动规划。
  5. 数据增强:生成更多训练样本,以提升模型鲁棒性。

Bright Data 的 数据集提供经过精选整理的网页数据,用于训练与微调生成式模型。另请参见:training dataprompt engineering

准备好开始了吗?