- 自动会话管理
- 锁定 195 个国家/地区的任意城市
- 无限并发会话
生成式 AI
一句话总结: 生成式 AI 通过从海量训练数据集中学习统计模式,来创作全新内容——文本、图像、音频或视频。
生成式 AI指能够产出原创内容的 AI 系统。它们会学习训练数据中的模式、结构与风格,然后生成符合这些模式的新样本。ChatGPT 用来写文本;Stable Diffusion 用来生成图片;Sora 用来生成视频——这些都属于生成式 AI。随着 ChatGPT 于 2022 年 11 月发布,这项技术开始走向大众。
核心架构
- 大语言模型(LLMs):基于 Transformer,在海量文本语料上训练。通过预测下一个 token 来生成文本。参见:large language model。
- 扩散模型:通过学习逆转加噪过程来生成图像、音频或视频。Stable Diffusion 与 DALL-E 采用该方法。参见:diffusion model。
- 生成对抗网络(GANs):生成器网络负责生成数据;判别器负责判断其真实性。对抗式训练推动生成质量提升。
- 变分自编码器(VAEs):将数据编码到压缩的潜在空间,再解码生成新样本。
生成式 AI 可以生成什么
- 文本:文章、摘要、代码、邮件、法律文档与对话内容。
- 图像:照片级真实图片、插画与产品效果图(mockups)。
- 音频:通过文本提示生成音乐、配音与音效。
- 视频:从文本或图像输入生成短视频片段与动画。
- 3D 对象:用于游戏、产品设计与虚拟环境的网格(mesh)。
- 合成数据:当真实数据稀缺或敏感时,用于 AI 训练的合成数据集。
生成式 AI 如何训练
生成式模型需要规模巨大且高质量的数据集。文本模型通常在来自网页、书籍与代码的数千亿 token 上训练;图像模型通常在数十亿级的图像-描述对上训练。数据质量会直接决定输出质量:低质量或带偏见的数据会产生低质量或带偏见的输出。RLHF 等对齐技术可引导模型生成更有帮助、更安全的回答。
生成式 AI 的应用
- 内容创作:自动化写作、设计与媒体生产。
- 软件开发:代码生成、自动补全与调试。
- 药物研发:为制药研究生成新的分子结构。
- 机器人:生成合成训练环境与运动规划。
- 数据增强:生成更多训练样本,以提升模型鲁棒性。
Bright Data 的 数据集提供经过精选整理的网页数据,用于训练与微调生成式模型。另请参见:training data、prompt engineering。
全球超20000 位客户信赖之选
欢迎来到 云抓取