网页归档 API 价格方案
利用全球最大的网页数据仓库,为模型训练与网页搜索提供高级数据管道
* 针对大数据量、长期合作或多解决方案项目,可提供批量优惠折扣。
我们接受这些支付方式:
值得信赖 全球 超20000 位客户
全球 超20000 位客户信赖
客户最常用的功能
- PB 级数据仓库
- 完整 HTML 页面与元数据
- 高级筛选与搜索能力
- 每日新增约 2.5 PB 数据
- 文本、图片、视频与音频
- 灵活的数据交付方式
- 每日新增 5T+ 文本 token
- API 优先访问
- 适配 AI 的数据
- 每日新增 25 亿+ 图片/视频 URL
- 免维护
- 99.99% 在线率 + 24/7 支持
STREAMLINED
通过 AWS Marketplace 支付
通过 AWS 采购可计入你的 AWS 承诺消费,并在一个平台完成精简的采购和开票流程。同时受益于 AWS 对合作伙伴严格的资质与合规审查。
COMPLIANT
行业领先的合规性
我们的隐私实践符合数据保护法律要求,包括欧盟数据保护监管框架、GDPR 与 CCPA 等,并尊重用户行使隐私权等相关请求。
Archive API 常见问题
什么是 Archive API?
Archive API 是由 Bright Data 构建的大规模、持续扩展的缓存仓库,专为大规模获取与交付公开网页数据而设计。它提供完整网页及其元数据,非常适合 AI 训练、机器学习以及大规模数据分析。与传统网页爬取不同,Archive API 更注重相关性、新鲜度和可用性,让你能够访问每天抓取的互联网“最重要部分”。
我能多快访问到数据?
你可以通过 Archive API 立即开始访问数据。API 支持对 Archive 中的快照进行搜索、检索和筛选,过程顺畅高效。
- 最近 3 天的数据:根据快照大小,从几分钟到数小时内交付
- 超过 3 天的数据:根据快照大小,从数小时到 3 天内处理并交付
数据可以通过哪些方式交付?
Archive 提供两种交付方式,帮助你无缝集成到现有工作流中:
- Amazon S3 bucket:将数据快照直接交付到你的 S3 存储桶。
- Webhook:通过 webhook 实时拉取数据并集成到你的系统。
我可以只获取自己需要的那部分 Archive 数据吗?
当然可以!Archive API 支持在获取数据前按类别、域名、日期、语言和国家进行筛选,确保你只拿到真正需要的数据。
Bright Data 的 Archive 与 Common Crawl 有何不同?
在处理大规模网页数据时,新鲜度、相关性和可获取性至关重要。Common Crawl 提供的是网络的历史快照,而 Bright Data 的 Archive API 提供实时、持续更新的数据,并具备高级筛选与交付选项。以下是两者对比:
| 特性 | Bright Data Archive | Common Crawl |
| 数据采集 | 持续实时抓取公开网页数据,结果可新至“当前时刻”。 | 周期性爬取(非实时),按月或双月更新,数据可能较为滞后。 |
| 数据体量 | 8 个月内收集 17.5 PB 数据,覆盖 1180 亿页面(来自 4000 万域名的 280 亿唯一 URL)。每周新增约 2.5 PB 和数十亿唯一 URL。 | 18 年累计约 2500 亿页面。 |
| 站点覆盖与相关性 | 基于真实抓取业务需求,聚焦高价值、高相关性站点数据。 | 无差别爬取,可能包含过时或质量较低的页面。 |
| 数据类型 | 完整网页(含 JS 渲染结果)。 | 约 98.6% 为 HTML 与文本。 |
| 筛选与交付 | 完整的数据发现与交付平台——可按类别、域名、语言、日期等筛选,通过 Amazon S3 或 webhook 交付。 | 无内置筛选或交付能力,需要自行处理体量巨大的原始 WARC 文件。 |