语义分割

一句话总结: 语义分割会为图像中的每一个像素标注类别标签,从而让机器获得对场景的细粒度像素级理解。

语义分割计算机视觉中的一项任务。它将图像中的每个像素分类到预定义类别中——例如:道路、车辆、行人、天空或建筑。不同于用边界框的目标检测,语义分割会为每个类别输出精确的像素掩码,从而让模型更细致地理解目标的形状与位置。这种精度对自动驾驶与医学影像尤其关键。

分割类型

  1. 语义分割:同一类别的所有像素共享同一个标签。两辆车都会标为“car”,不会区分不同实例。
  2. 实例分割:区分同一类别中的不同目标个体。每辆车都有独立的 ID 和掩码。
  3. 全景分割:两者结合——所有像素都有类别标签,同时对车辆、行人等可数对象分配唯一实例 ID。

关键模型架构

  1. 全卷积网络(FCN):首个端到端语义分割模型。用卷积层替代全连接层,实现像素级输出。
  2. U-Net:带跳跃连接的编码器-解码器结构,是医学图像分割的标准架构。
  3. DeepLab v3+:使用空洞卷积与 ASPP 捕获多尺度上下文,在基准数据集上达到 SOTA 水平。
  4. Segment Anything Model(SAM):Meta 的基础模型,可对任意对象类别进行零样本分割。

应用

  1. 自动驾驶:实时分割道路、车道线、车辆与行人;并与LiDAR点云结合,实现 3D 场景理解。
  2. 医学影像:在 MRI、CT 与病理扫描中分割肿瘤、器官与组织。
  3. 卫星影像:从航拍图中绘制土地利用图、检测森林砍伐并监测基础设施。
  4. 机器人:分割工作空间表面,以引导机械操作与安全导航。
  5. 增强现实:分离前景与背景,用于场景叠加与特效。

分割模型的训练数据

语义分割需要密集标注的图像:每个像素都必须带标签——这属于最耗人力的数据标注形式之一。一幅驾驶场景要做到像素级精确标注,可能需要 90 分钟。来自仿真的合成数据可提供免费的像素级真实标注(ground truth),并显著降低标注成本。Bright Data 的 数据集提供大规模图像集合,用于构建可规模化的分割训练数据集

准备好开始了吗?