网页缓存 API
访问 Bright Data 海量缓存集合,以极具性价比的方式从数十亿个域名中发现 HTML 数据。每周新增超过 1PB 内容,助你始终掌握最新数据洞察,体验前所未有的无缝、高效数据检索。
- 通过可筛选的元数据发现新的数据源
- 按模态、语言或域名进行精准定向
- 为持续或一次性项目定制专属数据集
- 可选标注与标签服务
全球 超20000 位客户信赖
访问大规模网页数据
Bright Data 的 Archive API 提供实时、持续更新的数据,并具备高级筛选与交付选项。
数据采集
持续实时抓取公开网页数据,提供“最新时刻”的结果。
数据体量
8 个月内收集 17.5 PB 数据,覆盖 1180 亿个页面,每周新增约 1 PB 数据和 20 亿个唯一 URL。
筛选与交付
覆盖与相关性
Archive API Playground
使用 Archive API 获取 Web 的任意切片
从拥有数十亿 HTML 页面、PB 级规模的网页存档中检索数据。发现视频与图片 URL、100+ 种语言的文本或历史 SERP。
结构化与干净
预处理数据采用统一 schema,非常适合用于 AI 模型训练与推理。
代码示例
提供可直接使用的 Python、Node.js、cURL、PHP、Go、Java 和 Ruby 代码片段,便于集成到 AI 工作流。
文档支持
为 ChatGPT、Claude 及其他 LLM 提供详尽的集成指南与示例 Notebooks。
# 要在 Archive 中发起一次搜索,请使用以下 /search 端点。Endpoint: POST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Authorization: Bearer $API_KEY"
-H 'Content-Type: application/json'
--data '{"filters": {"max_age": "1d", "domain_whitelist": ["example.com"]}}'
# 查询已发起搜索的状态。Endpoint: GET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "Authorization: Bearer $API_KEY"
# 查看当前所有搜索任务的状态。Endpoint: GET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization: Bearer $API_KEY"
从数十亿个域名中无缝获取数据
轻松发现并获取视频、图片、音频等各类资源的 URL。

企业级基础设施
Bright Data 平台为全球超过 超20000 家企业提供支持,具备 99.99% 在线率,并可访问覆盖 195 个国家、共 超15000万 个真实用户 IP。

先进的数据发现、采集与处理
无需自建代理和解封基础设施,即可获得最大化的控制与灵活性。从任意地理位置轻松抓取数据,同时规避 CAPTCHA 与封锁。

贴合你的工作流
获取结构化且经过验证的数据,并支持自定义交付与集成选项,包括跨历史抓取与多站点的数据报告、仪表盘和分析。
行业领先的合规性
我们的隐私实践遵循数据保护法规,包括欧盟数据保护监管框架、GDPR 和 CCPA,并尊重行使隐私权等相关请求。
轻松开启网页数据采集
Archive API 常见问题
什么是 Archive API?
Archive API 是由 Bright Data 构建的大规模、持续扩展的缓存仓库,专为大规模获取与交付公开网页数据而设计。
它提供完整网页及其元数据,非常适合用于 AI 训练、机器学习和大规模数据分析。
与传统爬取不同,Archive API 更注重相关性、新鲜度和可用性,让你能够访问每天抓取的互联网“最重要部分”。
Bright Data 的 Archive API 中有多少数据?
自上线的前 8 个月内,Bright Data 的 Archive API 已收集 17.5 PB 数据,覆盖来自 4000 万域名的 280 亿个唯一 URL。
我们每周还会新增约 1 PB 数据和约 20 亿个唯一 URL,使 Archive 成为目前规模最大、最新的网页数据仓库之一,非常适合 AI 和各类数据驱动应用。
我能多快访问到 Archive 中的数据?
你可以通过 Archive API 立即开始访问数据。API 支持对 Archive 中的快照进行搜索、检索和筛选,过程顺畅高效。
最近 3 天的数据:根据快照大小,从几分钟到数小时内交付。
超过 3 天的数据:根据快照大小,从数小时到 3 天内处理并交付。
数据可以通过哪些方式交付?
Archive 提供两种交付方式,帮助你无缝集成到现有工作流中:
Amazon S3 bucket:将数据快照直接交付到你的 S3 存储桶。
Webhook:通过 webhook 实时拉取数据并集成到你的系统。
我可以只获取自己需要的那部分 Archive 数据吗?
当然可以!Archive API 支持在获取数据前按类别、域名、日期、语言和国家进行筛选,确保你只拿到真正需要的数据。