4.6 out of five star rating on Trustpilot

网页缓存 API

访问 Bright Data 海量缓存集合，以极具性价比的方式从数十亿个域名中发现 HTML 数据。每周新增超过 1PB 内容，助你始终掌握最新数据洞察，体验前所未有的无缝、高效数据检索。

联系销售团队

支持支付宝等多种支付方式

通过可筛选的元数据发现新的数据源
按模态、语言或域名进行精准定向
为持续或一次性项目定制专属数据集
可选标注与标签服务

全球超20000 位客户信赖

访问大规模网页数据

Bright Data 的 Archive API 提供实时、持续更新的数据，并具备高级筛选与交付选项。

数据采集

持续实时抓取公开网页数据，提供“最新时刻”的结果。

数据体量

8 个月内收集 17.5 PB 数据，覆盖 1180 亿个页面，每周新增约 1 PB 数据和 20 亿个唯一 URL。

筛选与交付

完整的数据发现与交付平台——可按类别、域名、语言、日期等筛选，并通过 Amazon S3 或 webhook 交付。

覆盖与相关性

Archive API 专注于基于真实抓取业务需求的高价值、强相关站点数据。

Archive API Playground

Demo Web Archive Search

See how our web archive API works with example domains

Demo Domains

example.com

Time Range

Max Age: 1 day

Archive Results

Your archive results will appear here

Click "Show Demo Archive Data" to see example output or configure filters to search

代码示例

准备好集成 SERP API 了吗？

使用我们功能强大的 SERP API 开始吧。获取来自 Google、Bing 等的实时搜索结果

免费开始文档 Postman

使用 Archive API 获取 Web 的任意切片

从拥有数十亿 HTML 页面、PB 级规模的网页存档中检索数据。发现视频与图片 URL、100+ 种语言的文本或历史 SERP。

结构化与干净

预处理数据采用统一 schema，非常适合用于 AI 模型训练与推理。

代码示例

提供可直接使用的 Python、Node.js、cURL、PHP、Go、Java 和 Ruby 代码片段，便于集成到 AI 工作流。

文档支持

为 ChatGPT、Claude 及其他 LLM 提供详尽的集成指南与示例 Notebooks。

                              # 要在 Archive 中发起一次搜索，请使用以下 /search 端点。Endpoint: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization: Bearer $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'

                              # 查询已发起搜索的状态。Endpoint: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"

                              # 查看当前所有搜索任务的状态。Endpoint: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"