迁移学习

一句话总结: 迁移学习将一个在某个任务上训练好的模型适配到新任务上,可显著减少训练有效 AI 系统所需的数据与算力。

迁移学习是机器学习中的一种技术:将一个在大型源任务(source task)上训练的模型,作为另一个目标任务(target task)的起点复用。模型会将从第一个任务中学到的知识迁移到新任务中。这在目标任务标注数据稀缺时尤其有用。从零训练模型需要海量数据与算力;迁移学习则能用更少的样本获得很强的效果。

迁移学习如何工作

  1. 预训练:在大规模、通用数据集上训练一个大型模型。视觉任务通常使用 ImageNet;语言任务则使用大规模文本语料。
  2. 迁移:将预训练模型的权重复制到新模型中。
  3. 微调:在较小的、任务相关的数据集上继续训练新模型。通常会冻结前面的层,只更新后面的层。

关键方法

  1. 特征提取:将预训练模型作为固定的特征提取器使用,只训练新的分类头(head)。
  2. 微调(Fine-Tuning):以较小学习率在新数据集上重训预训练模型的全部或部分层。
  3. 领域自适应(Domain Adaptation):让模型从一个领域(如照片)迁移到另一个领域(如医学扫描),并尽量减少对目标领域标注数据的依赖。

应用

  1. 计算机视觉:将在 ImageNet 上预训练的 CNN 微调到医学影像、缺陷检测或卫星影像等任务。参见:计算机视觉
  2. NLP:BERT、GPT 等模型在网页文本上预训练,再微调用于情感分析、命名实体识别或问答任务。
  3. 机器人:在仿真中学到的操控技能迁移到真实机器人,从而减少昂贵的真实世界训练数据采集。
  4. 自动驾驶:在大数据集上预训练的感知模型,可用有限的新数据适配到新的车型或环境。

迁移学习与数据效率

迁移学习是现代 AI 中最实用的技术之一,它可以将对标注数据的需求从“百万级样本”降低到“千级样本”。但源领域数据质量仍然关键:在干净且多样化数据上预训练的模型迁移效果更好。Bright Data 的 数据集可帮助团队在不同领域构建高质量的预训练语料与微调数据集。

准备好开始了吗?