VLA vs. 世界模型：为什么网页规模的数据策略很重要

网页数据 Loft 的 VLA 之夜总结。

我们邀请了来自 Agility Robotics、Tesla、Prometheus 和 Distill Labs 的工程师来到旧金山 Bright Data 的 Web Data Loft，讨论一个问题：

从语言模型走向能在真实世界中工作的机器人，实际上需要什么？

答案比炒作所暗示的更接地气。瓶颈不仅在于模型架构。还在于训练语料：你收集什么、如何混合、来自哪里，以及你是否能以任何人工团队都无法匹敌的规模对其进行整理。

圆桌嘉宾包括 Agility Robotics 的 Sri 和 Ahmed、以个人身份发言的机器人 ML 工程师 Ankur、Prometheus 的 Daniel（曾就职于 1X 和 Waymo），以及 Distill Labs 的联合创始人 Jacek。对话由 HackerSquad 和 Builders Collective 的 Adam 主持。

下面是五个要点：如果你正在构建 Vision-Language-Action 模型、世界模型，或其背后的数据管道，这些要点都很重要。

1. VLA 是带有动作头的 VLM，其泛化能力来自网页规模的预训练

圆桌的工作定义很简单：VLA 起初是一个在互联网规模文本和图像上训练的视觉-语言模型，任务包括描述生成、分割和物体理解。然后你添加一个动作组件，并在机器人数据上进行微调。

这种区分很重要。机器人数据教会执行。网页规模的预训练教会模型世界是什么。

这就是为什么 VLA 有时能拾取它从未被明确训练去拾取的物体。泛化能力并不来自少量的远程操控机器人演示。它来自机器人进入闭环之前广泛的视觉与语义暴露。

如果你的预训练语料很狭窄，再多昂贵的远程操控数据也无法完全弥补你跳过的泛化能力。

“它是在互联网规模的文本和图像数据上训练的……然后你在机器人数据上微调 VLM，就得到一个视觉-语言-动作模型。好处是它有更好的泛化能力：如果你训练它去拾取某个物体，你可以让它去拾取另一个物体，因为它见过类似的东西。”
— Ankur，机器人 ML 工程师，以个人身份发言。在 9:59 观看 →

2. 视觉、语言和动作正在进入同一个 token 空间

现代 VLA 越来越像 LLM，体现在一个重要方面：它们预测下一个 token。

这个 token 可能是一个词、一个图像 patch，或一个关节空间控制指令。正如 Distill Labs 联合创始人 Jacek 所解释的，与软件智能体的联系是直接的。LLM 调用 API 工具。VLA 调用物理工具。支撑框架从“调用一个端点”变成“抓起杯子”，但底层模式相似。

这带来一个强有力的含义：任何可以被 token 化的模态，都可以成为同一训练空间的一部分。网页视频、第一人称视角素材、人类演示、远程操控以及 on-policy 机器人数据，都可以贡献到共享表征中。

约束随之从“模型能用这个吗？”转变为“我们能否以合适的规模获取合适的样本？”

“你可以把你的动作空间看作是 LLM 的函数调用……你这样拆解之后，它与人们为非物理世界构建的东西没有不同：智能体在一个暴露工具的支撑框架里启动子智能体。现在这个支撑框架更物理化。这就是它强大的原因，因为你可以依赖网页训练数据获得一个相当不错的起点。”
— Jacek，联合创始人，Distill Labs。在 15:14 观看 →

3. VLA 和世界模型需要不同的数据，把两者混为一谈代价高昂

当晚最鲜明的区分之一，是 VLA 训练与世界模型训练之间的差异。

正如 Ankur 所表述的，VLA 在很大程度上是一个 模仿学习问题。你需要干净、成功、高质量的轨迹。糟糕的演示会造成伤害。

世界模型 则不同。它需要在给定一个动作的情况下预测接下来会发生什么，这意味着它不仅要理解成功结果，还要理解错误、边缘情况和失败。如果你想将世界模型用于规划，或作为用于强化学习的学习型模拟器，它必须表征所有可能未来的完整范围。

Prometheus 的工程师 Daniel（此前在 1X 负责世界模型工作）解释了为什么这很难。许多当前的世界模型偏向成功结果。当展示一段即将失败的轨迹时，它们可能会幻觉出一次恢复，而不是对错误进行建模。在机器人领域，这尤其危险。模型必须在最可能发生接触、抓取和失败的时刻，做到对动作可控。

要点是：“机器人数据”不是一个通用的桶。模仿策略和世界模型需要刻意不同的语料。

“你真的需要一个对动作非常可控的世界模型……在你抓取物体时的成败时刻。如果那里出现空缺，这是一个非常糟糕的信号。”
— Daniel，Prometheus，曾就职于 1X。在 35:36 观看 →

📖 相关阅读： 什么是 AI 模型训练？ · AI 幻觉解析 · 机器人数据集

4. 数据层级是真实存在的：网页数据提供广度，机器人数据提供控制

Agility Robotics 的工程师 Ahmed 清晰地阐述了信号的层级。

远程操控数据包含最强的控制信息，因为它包含完整的机器人状态。人类演示和第一人称视角视频携带的直接控制信号更少。网页视频在底层控制层携带的最少。

但这并不意味着网页数据不重要。这意味着它的角色不同。

网页规模的视频教会语义、上下文、任务结构、物体多样性以及通用世界知识。它帮助模型理解在巨大变化范围内，房间、工具、人、物体和目标是什么样子。它不擅长教的是：特定机器人身体执行特定动作时的细粒度物理。

Ankur 给出了最清晰的类比：你可以看完所有记录下来的 Messi 或 Ronaldo 的视频，并对足球有很深的理解，但你仍然无法在不练习的情况下踢球。网页数据教会比赛。机器人本体数据教会身体。

同一段交流也给出了实用的数据预算洞见：一小时的网页数据可能提供大约相当于五分钟远程操控数据的可迁移价值。网页数据不会取代 teleop，但强大的网页规模预训练可以减少你需要多少昂贵的机器人数据。

“我们可以看很多 Messi 或 Ronaldo 的足球视频，但在我们自己去练习之前，我们并不能真正踢球。我们从网页数据中获得对任务的理解。要真正执行它，我们需要机器人本体数据……也许一小时的网页数据相当于五分钟的 teleop 数据。”
— Ankur，机器人 ML 工程师，以个人身份发言。在 1:01:09 观看 →

5. 目前还没有可靠的缩放定律，因此整理速度成为优势

对于 LLM，行业有 Kaplan 和 Chinchilla 缩放定律。对于 VLA 和世界模型，Daniel 直言：机器人领域还没到那一步。

团队仍然无法可靠地将机器人性能预测为网页 tokens、teleop 小时数、部署数据、算力或模型规模的干净函数。部分挑战在于模仿学习和世界建模使用不同的监督信号。另一个原因是关键指标是下游任务成功率，而不是预训练损失。

Daniel 还与自动驾驶仿真做了一个有用的对比。在自动驾驶中，仿真往往在发生接触时停止。在机器人领域，接触才是现实复杂性的开始。抓取、推挤、打滑、形变、碰撞和恢复不是边缘情况。它们就是任务本身。

在更好的缩放定律出现之前，优势属于那些能最快找到并整理正确样本的团队：特定场景、任务族、物体交互、失败以及富含接触的时刻。这不仅是建模挑战。还是一个发现与数据管道挑战。

“对于 LLM 来说，用 flop 计数或 token 计数来回答缩放定律现在很常见，Kaplan 等人，以及 Chinchilla 缩放定律。今天我们并没有真正提出这些问题来科学地比较 VLA 和世界模型……我认为答案是我们还没到那一步，而我们确实应该到那一步。”
— Daniel，Prometheus，曾就职于 1X 和 Waymo。在 54:35 观看 →

📖 相关阅读： 数据发现 · 最佳 AI 训练数据提供商 · LLM 训练数据

这对你的机器人数据策略意味着什么

圆桌达成了一个清晰的结论：

网页规模的数据让机器人对世界有广泛的理解。机器人本体数据教会它们如何在其中行动。你的预训练语料越好，你就越不需要昂贵的机器人数据来实现可靠执行。

要做到这一点，需要三项大多数团队低估的能力：

🌐 网页规模的抓取

从开放网络进行 PB 级的视频、图像和音频采集，而不仅仅是分类体系过时的冻结学术数据集。参见 Bright Data 的网页规模数据采集基础设施和自定义数据解决方案。

🔍 超越关键词搜索的视觉发现

最有价值的任务多样性往往出现在从未在标题、标签或字幕中描述的场景里。关键词搜索会错过大量长尾。探索通过 Discover API 进行视觉与语义发现。

⚖️ 可辩护的溯源

文本模型在数万亿 tokens 上训练。VLA 在数万亿帧上训练。每一帧都可能带来许可与溯源问题，而真实世界的机器人部署会提高风险。了解更多请访问我们的信任中心和我们的合乎伦理的数据采集指南。

模型正在趋同。差异化因素正在变成语料：它有多广、它有多相关，以及你是否能为其来源进行辩护。

正在构建 VLA 或世界模型？

与我们的团队交流 →，了解如何以网页规模发现并获取训练视频。

进一步了解面向 AI 的 Bright Data，探索我们面向 VLA 的视频数据产品，或浏览我们用于机器人、计算机视觉和多模态训练的现成数据集。

联系销售开始免费试用

支持支付宝等多种支付方式

Adam Chan

创始人兼构建者 @Hackersquad

Adam 是一名工程师，拥有十多年经验，曾在 Apple 负责大规模 IDE 部署，在 Google 推动企业与消费者之间对话式消息界面的全球采用，如今专注于 AI 领域，帮助全球开发者快速构建可扩展、可投入生产的 AI 代理应用。

View all articles

VLA 和世界模型需要网页规模的数据。只是需要的数据不一样

1. VLA 是带有动作头的 VLM，其泛化能力来自网页规模的预训练

2. 视觉、语言和动作正在进入同一个 token 空间

3. VLA 和世界模型需要不同的数据，把两者混为一谈代价高昂

4. 数据层级是真实存在的：网页数据提供广度，机器人数据提供控制

5. 目前还没有可靠的缩放定律，因此整理速度成为优势