网页缓存 API

访问 Bright Data 海量缓存集合,以极具性价比的方式从数十亿个域名中发现 HTML 数据。每周新增超过 1PB 内容,助你始终掌握最新数据洞察,体验前所未有的无缝、高效数据检索。

联系销售团队
支持支付宝等多种支付方式
  • 通过可筛选的元数据发现新的数据源
  • 按模态、语言或域名进行精准定向
  • 为持续或一次性项目定制专属数据集
  • 可选标注与标签服务
值得信赖 全球 超20000 位客户

访问大规模网页数据

Bright Data 的 Archive API 提供实时、持续更新的数据,并具备高级筛选与交付选项。

数据采集

持续实时抓取公开网页数据,提供“最新时刻”的结果。

数据体量

8 个月内收集 17.5 PB 数据,覆盖 1180 亿个页面,每周新增约 1 PB 数据和 20 亿个唯一 URL。

筛选与交付

完整的数据发现与交付平台——可按类别、域名、语言、日期等筛选,并通过 Amazon S3 或 webhook 交付。

覆盖与相关性

Archive API 专注于基于真实抓取业务需求的高价值、强相关站点数据。

Archive API Playground

Demo Web Archive Search
See how our web archive API works with example domains
Demo Domains
example.com
Time Range
Max Age: 1 day
Archive Results
Your archive results will appear here
Click "Show Demo Archive Data" to see example output or configure filters to search
            
          
代码示例
                
              

Ready to integrate Web Archive API?

Get started with our powerful Web Archive API. Access historical web data with our scalable infrastructure.

使用 Archive API 获取 Web 的任意切片

从拥有数十亿 HTML 页面、PB 级规模的网页存档中检索数据。发现视频与图片 URL、100+ 种语言的文本或历史 SERP。

结构化与干净

预处理数据采用统一 schema,非常适合用于 AI 模型训练与推理。

代码示例

提供可直接使用的 Python、Node.js、cURL、PHP、Go、Java 和 Ruby 代码片段,便于集成到 AI 工作流。

文档支持

为 ChatGPT、Claude 及其他 LLM 提供详尽的集成指南与示例 Notebooks。

                              # 要在 Archive 中发起一次搜索,请使用以下 /search 端点。Endpoint: POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization: Bearer $API_KEY" 
  -H 'Content-Type: application/json' 
  --data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
                              
                            
                              # 查询已发起搜索的状态。Endpoint: GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization: Bearer $API_KEY"
                              
                            
                              # 查看当前所有搜索任务的状态。Endpoint: GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization: Bearer $API_KEY"
                              
                            

网页缓存 API 使用场景

在数十亿历史网页快照中追踪内容变化并分析趋势。访问来自 4000 万个域名、共 17.5 PB 的缓存数据,用于纵向研究、竞品分析和市场情报,无需重复爬取。
与专家沟通
深度研究
利用预抓取、已渲染 JS 的内容,瞬间构建覆盖数百万域名的搜索索引。可按类别、语言与日期筛选,创建更聚焦的索引,同时降低基础设施成本。
与专家沟通
索引构建
使用 17.5 PB 干净的网页数据训练 AI 模型。获取多源的新鲜高质量内容,每周新增 1 PB 数据,以适合机器学习应用的格式交付。
与专家沟通
LLM 训练

从数十亿个域名中无缝获取数据

轻松发现并获取视频、图片、音频等各类资源的 URL。

FLEXIBLE

企业级基础设施

Bright Data 平台为全球超过 超20000 家企业提供支持,具备 99.99% 在线率,并可访问覆盖 195 个国家、共 超15000万 个真实用户 IP。

SCALABLE

先进的数据发现、采集与处理

无需自建代理和解封基础设施,即可获得最大化的控制与灵活性。从任意地理位置轻松抓取数据,同时规避 CAPTCHA 与封锁。

STABLE

贴合你的工作流

获取结构化且经过验证的数据,并支持自定义交付与集成选项,包括跨历史抓取与多站点的数据报告、仪表盘和分析。

COMPLIANT

行业领先的合规性

我们的隐私实践遵循数据保护法规,包括欧盟数据保护监管框架、GDPR 和 CCPA,并尊重行使隐私权等相关请求。

轻松开启网页数据采集

Archive API 常见问题

Archive API 是由 Bright Data 构建的大规模、持续扩展的缓存仓库,专为大规模获取与交付公开网页数据而设计。

它提供完整网页及其元数据,非常适合用于 AI 训练、机器学习和大规模数据分析。

与传统爬取不同,Archive API 更注重相关性、新鲜度和可用性,让你能够访问每天抓取的互联网“最重要部分”。

自上线的前 8 个月内,Bright Data 的 Archive API 已收集 17.5 PB 数据,覆盖来自 4000 万域名的 280 亿个唯一 URL。

我们每周还会新增约 1 PB 数据和约 20 亿个唯一 URL,使 Archive 成为目前规模最大、最新的网页数据仓库之一,非常适合 AI 和各类数据驱动应用。

你可以通过 Archive API 立即开始访问数据。API 支持对 Archive 中的快照进行搜索、检索和筛选,过程顺畅高效。

最近 3 天的数据:根据快照大小,从几分钟到数小时内交付。

超过 3 天的数据:根据快照大小,从数小时到 3 天内处理并交付。

Archive 提供两种交付方式,帮助你无缝集成到现有工作流中:

Amazon S3 bucket:将数据快照直接交付到你的 S3 存储桶。

Webhook:通过 webhook 实时拉取数据并集成到你的系统。

当然可以!Archive API 支持在获取数据前按类别、域名、日期、语言和国家进行筛选,确保你只拿到真正需要的数据。