- 现成的 JavaScript 函数多达 73+
- 由我们客户构建的抓取工具多达 38K+
- 195拥有代理终端节点的国家/地区
绕过验证码和封禁
使用基于人工智能的嵌入式网络解锁器,解锁最复杂的反爬虫,同时该解锁器建立在超广泛的 IP 资源池之上。
随时掌控的持续抓取
功能
即用型抓取函数
从 70 多个防抓取代码模板中进行选择,并实施与您的特定用途相匹配的自定义更改。
在线开发环境
完全托管的 IDE,允许可扩展的 CI/CD 流程。
嵌入式调试程序
查看日志并与 Chrome 开发者工具集成,以确定根本原因分析。
JavaScript 浏览器交互
使用 JavaScript 协议控制浏览器操作。
内置解析程序
在 cheerio 中写入解析程序,并运行实时预览以查看其生成的数据
可观测性控制面板
在单个控制面板中跟踪、测量并比较您的抓取工具和任务。
自动扩展基础架构
减少对硬件和软件维护的投资,将计算过程转移到云端。
代理自动领航
利用内置指纹识别、自动重试、验证码解锁等功能,在任何地理位置以真实用户身份运行抓取工具。
集成
按计划或通过 API 触发抓取工具,并连接到众多第三方服务提供商。
价格从每 1000 个页面加载 $2.7 起
数据收集流程
在目标网站上显示符合您需求的网站 URL 完整列表和层次结构。使用现成函数用于网站搜索并点击类别菜单,例如:
- 从延迟加载搜索 (load_more(), capture_graphql()) 中提取数据
- 用于产品发现的分页函数
- 支持使用 rerun_stage() 或 next_stage() 将新页面推送到队列中进行并行抓取
使用固定 URL 为任何页面构建抓取工具,或使用 API 或直接从发现阶段开始创建动态 URL。利用以下功能更快地构建网络抓取工具:
- HTML 解析(在 cheerio 中)
- 捕获浏览器网络调用
- 适用于 GraphQL API 的预建工具
- 抓取网站 JSON API
运行测试以确保获得预期的数据
- 定义所希望的数据接收模式
- 自定义验证码以显示数据格式正确
- 数据可以包括 JSON、媒体文件和浏览器屏幕截图
通过所有常用的存储目的地交付数据:
- API
- Amazon S3
- Webhook
- Microsoft Azure
- Google Cloud PubSub
- SFTP
是否想跳过抓取,仅获取数据集?
任何使用场景均可使用
抓取电子商务网站
- 配置动态定价模型
- 实时识别匹配的产品
- 追踪消费者需求的变化
- 预测下一个重大产品趋势
- 推出新品牌时获得实时提醒
抓取社交媒体
- 抓取点赞数、帖子、评论、话题标签和视频
- 按关注者数量、行业等发现有影响力的网红
- 通关监测点赞数、分享数等,发现受欢迎程度的变化趋势。
- 改进现有营销活动并创建更具成效的营销活动
- 分析产品评论和消费者反馈
抓取促销网站
- 潜在客户开发和招聘网站抓取工具
- 抓取公开资料以更新您的客户管理系统(CRM)
- 确定关键企业和员工流动
- 评估企业增长情况和行业趋势
- 分析招聘模式和按需技能组合
抓取旅游网站
- 酒店和旅游竞争对手比价
- 实时设置动态定价模型
- 查找竞争对手的新推优惠和促销活动
- 为每项旅行促销确定合适的价格
- 预测下一个重大旅行趋势
抓取房地产网站
- 比较房地产价格
- 维护最新的房地产交易清单数据库
- 预测销售和趋势以提高投资回报率(ROI)
- 分析市场租赁周期的起伏变化
- 寻找租金最高的房地产
网络抓取工具灵感
合规性业界领先
我们的隐私保护措施遵守各项数据保护法规,包括欧盟数据保护监管框架、《通用数据保护条例》(GDPR) 和《加州消费者隐私法案》(CCPA),充分尊重行使隐私权等请求。
无服务器函数常见问题解答
什么是无服务器函数
无服务器函数是一种完全托管的云解决方案,专为开发人员在 JavaScript 编码环境中构建快速且可扩展的抓取工具而设计。该 IDE 建立在 Bright Data 的解锁代理解决方案基础上,包括来自主要网站的现成函数和代码模板,从而缩短了开发时间并确保了易扩展性。
谁应使用无服务器函数?
非常适合具有开发能力(内部或外包)的客户。无服务器函数用户拥有最大的控制权和灵活性,无需维护基础架构、处理代理和防屏蔽系统。我们的用户可以使用预建的 JavaScript 函数和代码模板轻松快速地扩展和开发抓取工具。
无服务器功能试用版包括那些内容?
- 无限次测试
- 访问现有代码模板
- 访问预建的 JavaScript 函数
- 可发布 3 个抓取工具,每个抓取工具可抓取多达 100 条记录
**免费试用版有抓取记录数量的限制。
数据以何种格式交付?
您可以选择 JSON、NDJSON、CSV 或 Microsoft Excel。
数据存储在哪里?
您可以选择自己喜欢的交付和存储方式:API、Webhook、Amazon S3、Google Cloud、Google Cloud Pubsub、Microsoft Azure 或 SFTP。
为什么防屏蔽解决方案对网页抓取很重要?
抓取网站时采用防屏蔽解决方案之所以重要,是因为许多网站都采用反抓取措施,会屏蔽抓取工具的 IP 地址或需要解算验证码。Bright Data 的 Web Scraper IDE 中实施的防屏蔽解决方案旨在绕过这些障碍,不间断地持续采集数据。
我能抓取什么样的数据?
公开数据。出于对隐私法的承诺,我们禁止抓取登录后可见的数据。