网页归档 API 价格方案

Q: 数据可以通过哪些方式交付？

Archive 提供两种交付方式，帮助你无缝集成到现有工作流中： Amazon S3 bucket：将数据快照直接交付到你的 S3 存储桶。 Webhook：通过 webhook 实时拉取数据并集成到你的系统。

Q: Bright Data 的 Archive 与 Common Crawl 有何不同？

在处理大规模网页数据时，新鲜度、相关性和可获取性至关重要。Common Crawl 提供的是网络的历史快照，而 Bright Data 的 Archive API 提供实时、持续更新的数据，并具备高级筛选与交付选项。以下是两者对比： 特性 Bright Data Archive Common Crawl 数据采集 持续实时抓取公开网页数据，结果可新至“当前时刻”。 周期性爬取（非实时），按月或双月更新，数据可能较为滞后。 数据体量 8 个月内收集 17.5 PB 数据，覆盖 1180 亿页面（来自 4000 万域名的 280 亿唯一 URL）。每周新增约 2.5 PB 和数十亿唯一 URL。 18 年累计约 2500 亿页面。 站点覆盖与相关性 基于真实抓取业务需求，聚焦高价值、高相关性站点数据。 无差别爬取，可能包含过时或质量较低的页面。 数据类型 完整网页（含 JS 渲染结果）。 约 98.6% 为 HTML 与文本。 筛选与交付 完整的数据发现与交付平台——可按类别、域名、语言、日期等筛选，通过 Amazon S3 或 webhook 交付。 无内置筛选或交付能力，需要自行处理体量巨大的原始 WARC 文件。

利用全球最大的网页数据仓库，为模型训练与网页搜索提供高级数据管道

立即注册，我们将按 1:1 匹配你的首次充值金额，最高可达 $500！

Start now

体验套餐

$0.2 /1K HTMLs

按量支付

开始使用

包含

具备高级过滤功能的 API 访问（域名、分类、日期、语言、国家、路径）
灵活的交付方式：AWS、GCP、Snowflake、Databricks 等
标准支持
历史数据（+72 小时）起价 $1/每 1K 条 HTML

企业级套餐

联系我们获取专属报价

联系销售专家洽谈

包含

具备高级过滤功能的 API 访问（域名、分类、日期、语言、国家、路径）
灵活的交付方式：AWS、GCP、Snowflake、Databricks 等
标准支持
专属账户经理
7×24 小时高级技术支持
服务等级协议（SLA）保障
大规模数据需求可享批量折扣
定制化集成支持
扩展/多样化交付选项

* 针对大数据量、长期合作或多解决方案项目，可提供批量优惠折扣。

我们接受这些支付方式:

使用 AWS？您现在可以通过 AWS Marketplace 付款。

开始使用

全球超20000 位客户信赖

客户最常用的功能

PB 级数据仓库
完整 HTML 页面与元数据
高级筛选与搜索能力
每日新增约 2.5 PB 数据
文本、图片、视频与音频
灵活的数据交付方式
每日新增 5T+ 文本 token
API 优先访问
适配 AI 的数据
每日新增 25 亿+ 图片/视频 URL
免维护
99.99% 在线率 + 24/7 支持

STREAMLINED

通过 AWS Marketplace 支付

通过 AWS 采购可计入你的 AWS 承诺消费，并在一个平台完成精简的采购和开票流程。同时受益于 AWS 对合作伙伴严格的资质与合规审查。

COMPLIANT

行业领先的合规性

我们的隐私实践符合数据保护法律要求，包括欧盟数据保护监管框架、GDPR 与 CCPA 等，并尊重用户行使隐私权等相关请求。

Archive API 常见问题

什么是 Archive API？

Archive API 是由 Bright Data 构建的大规模、持续扩展的缓存仓库，专为大规模获取与交付公开网页数据而设计。它提供完整网页及其元数据，非常适合 AI 训练、机器学习以及大规模数据分析。与传统网页爬取不同，Archive API 更注重相关性、新鲜度和可用性，让你能够访问每天抓取的互联网“最重要部分”。

我能多快访问到数据？

你可以通过 Archive API 立即开始访问数据。API 支持对 Archive 中的快照进行搜索、检索和筛选，过程顺畅高效。

最近 3 天的数据：根据快照大小，从几分钟到数小时内交付
超过 3 天的数据：根据快照大小，从数小时到 3 天内处理并交付

数据可以通过哪些方式交付？

Archive 提供两种交付方式，帮助你无缝集成到现有工作流中：

Amazon S3 bucket：将数据快照直接交付到你的 S3 存储桶。
Webhook：通过 webhook 实时拉取数据并集成到你的系统。

我可以只获取自己需要的那部分 Archive 数据吗？

当然可以！Archive API 支持在获取数据前按类别、域名、日期、语言和国家进行筛选，确保你只拿到真正需要的数据。

Bright Data 的 Archive 与 Common Crawl 有何不同？

在处理大规模网页数据时，新鲜度、相关性和可获取性至关重要。Common Crawl 提供的是网络的历史快照，而 Bright Data 的 Archive API 提供实时、持续更新的数据，并具备高级筛选与交付选项。以下是两者对比：

特性	Bright Data Archive	Common Crawl
数据采集	持续实时抓取公开网页数据，结果可新至“当前时刻”。	周期性爬取（非实时），按月或双月更新，数据可能较为滞后。
数据体量	8 个月内收集 17.5 PB 数据，覆盖 1180 亿页面（来自 4000 万域名的 280 亿唯一 URL）。每周新增约 2.5 PB 和数十亿唯一 URL。	18 年累计约 2500 亿页面。
站点覆盖与相关性	基于真实抓取业务需求，聚焦高价值、高相关性站点数据。	无差别爬取，可能包含过时或质量较低的页面。
数据类型	完整网页（含 JS 渲染结果）。	约 98.6% 为 HTML 与文本。
筛选与交付	完整的数据发现与交付平台——可按类别、域名、语言、日期等筛选，通过 Amazon S3 或 webhook 交付。	无内置筛选或交付能力，需要自行处理体量巨大的原始 WARC 文件。

不确定自己需要什么？

联系销售