网页归档 API 价格方案

利用全球最大的网页数据仓库,为模型训练与网页搜索提供高级数据管道

体验套餐
$0.2 /1K HTMLs
按量支付
开始使用
包含
  • 具备高级过滤功能的 API 访问(域名、分类、日期、语言、国家、路径)
  • 灵活的交付方式:AWS、GCP、Snowflake、Databricks 等
  • 标准支持
  • 历史数据(+72 小时)起价 $1/每 1K 条 HTML
企业级套餐
联系我们获取专属报价
联系销售专家洽谈
包含
  • 具备高级过滤功能的 API 访问(域名、分类、日期、语言、国家、路径)
  • 灵活的交付方式:AWS、GCP、Snowflake、Databricks 等
  • 标准支持
  • 专属账户经理
  • 7×24 小时高级技术支持
  • 服务等级协议(SLA)保障
  • 大规模数据需求可享批量折扣
  • 定制化集成支持
  • 扩展/多样化交付选项
* 针对大数据量、长期合作或多解决方案项目,可提供批量优惠折扣。
我们接受这些支付方式:
使用 AWS?您现在可以通过 AWS Marketplace 付款。
开始使用
值得信赖 全球 超20000 位客户

客户最常用的功能

  • PB 级数据仓库
  • 完整 HTML 页面与元数据
  • 高级筛选与搜索能力
  • 每日新增约 2.5 PB 数据
  • 文本、图片、视频与音频
  • 灵活的数据交付方式
  • 每日新增 5T+ 文本 token
  • API 优先访问
  • 适配 AI 的数据
  • 每日新增 25 亿+ 图片/视频 URL
  • 免维护
  • 99.99% 在线率 + 24/7 支持
STREAMLINED

通过 AWS Marketplace 支付

通过 AWS 采购可计入你的 AWS 承诺消费,并在一个平台完成精简的采购和开票流程。同时受益于 AWS 对合作伙伴严格的资质与合规审查。

COMPLIANT

行业领先的合规性

我们的隐私实践符合数据保护法律要求,包括欧盟数据保护监管框架、GDPR 与 CCPA 等,并尊重用户行使隐私权等相关请求。

Archive API 常见问题

Archive API 是由 Bright Data 构建的大规模、持续扩展的缓存仓库,专为大规模获取与交付公开网页数据而设计。它提供完整网页及其元数据,非常适合 AI 训练、机器学习以及大规模数据分析。与传统网页爬取不同,Archive API 更注重相关性、新鲜度可用性,让你能够访问每天抓取的互联网“最重要部分”。

你可以通过 Archive API 立即开始访问数据。API 支持对 Archive 中的快照进行搜索、检索和筛选,过程顺畅高效。

  • 最近 3 天的数据:根据快照大小,从几分钟到数小时内交付
  • 超过 3 天的数据:根据快照大小,从数小时到 3 天内处理并交付

Archive 提供两种交付方式,帮助你无缝集成到现有工作流中:

  • Amazon S3 bucket:将数据快照直接交付到你的 S3 存储桶。
  • Webhook:通过 webhook 实时拉取数据并集成到你的系统。

当然可以!Archive API 支持在获取数据前按类别、域名、日期、语言和国家进行筛选,确保你只拿到真正需要的数据。

在处理大规模网页数据时,新鲜度相关性可获取性至关重要。Common Crawl 提供的是网络的历史快照,而 Bright Data 的 Archive API 提供实时、持续更新的数据,并具备高级筛选与交付选项。以下是两者对比:

特性 Bright Data Archive Common Crawl
数据采集 持续实时抓取公开网页数据,结果可新至“当前时刻”。 周期性爬取(非实时),按月或双月更新,数据可能较为滞后。
数据体量 8 个月内收集 17.5 PB 数据,覆盖 1180 亿页面(来自 4000 万域名的 280 亿唯一 URL)。每周新增约 2.5 PB 和数十亿唯一 URL。 18 年累计约 2500 亿页面。
站点覆盖与相关性 基于真实抓取业务需求,聚焦高价值、高相关性站点数据。 无差别爬取,可能包含过时或质量较低的页面。
数据类型 完整网页(含 JS 渲染结果)。 约 98.6% 为 HTML 与文本。
筛选与交付 完整的数据发现与交付平台——可按类别、域名、语言、日期等筛选,通过 Amazon S3 或 webhook 交付。 无内置筛选或交付能力,需要自行处理体量巨大的原始 WARC 文件。

不确定自己需要什么?