Scrapy 代理集成

Scrapy 代理集成

本指南可能已过时。获取最新指南请参阅 我们的文档

什么是 Scrapy?

Scrapy 是一个用于网页爬取与抓取的 Python 框架,可帮助用户从网站中提取结构化数据。它开源、快速且可扩展。Scrapy 可用于多种场景,例如数据挖掘、监控以及自动化测试。

Scrapy 与 Bright Data 代理集成

打开你常用的 IDE 并新建一个 Scrapy 项目,在命令行输入:

      scrapy startproject 
    

这将创建一个以项目名命名的新文件夹。在该文件夹中打开一个 Python 文件。

  • 进入 Bright Data 控制台并点击“Proxies & Scraping Infra”(代理与采集基础设施)图标
  • 点击“Add”(添加)创建新的代理 zone,选择网络类型,配置代理并点击保存
  • 在你的代理 zone 的“Access parameters”(访问参数)标签页中,你可以找到“USERNAME(用户名)”与“PASSWORD(密码)”。
  • 在 Scrapy 的 spider 代码文件中,于请求的 meta 参数里将“proxy”设置为以下值,并使用上述“USERNAME”和“PASSWORD”:http://USERNAME:[email protected]:33335
  • 例如:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"

def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
yield request

def parse(self, response):
print(response.body)

然后在命令行中运行以下命令:

      scrapy runspider 
    

如何在 Scrapy 中使用 Bright Data Proxy Manager

  • 创建一个代理 zone,方式与上面“直接集成”部分相同
  • 安装 Proxy Manager
  • 点击“add new port”(添加新端口)并按你的使用场景进行配置
  • 在 Scrapy 的 spider 代码文件中,于请求的 meta 参数里将“proxy”设置为:http://IP:PORTNUMBER
  • 本地主机 IP 为 127.0.0.1——如果 Proxy Manager 安装在你的机器上,需要使用该值;如果 Proxy Manager 安装在外部服务器上,请填写该服务器的 IP 地址
  • Proxy Manager 中创建的端口为 24XXX,例如 24000(默认第一个端口号)
  • 例如:
      import scrapy

class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"

def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://127.0.0.1:24000"
yield request

def parse(self, response):
print(response.body)

⚠️重要提示:如果你使用的是 Bright Data 的住宅代理(Residential Proxies)、Web Unlocker 或 SERP API,则需要安装 SSL 证书,以启用与目标网站之间端到端的安全连接。这是一个简单的过程,安装说明请参见 https://docs.brightdata.com/general/account/ssl-certificate#installation-of-the-ssl-certificate

获取适用于 Scrapy 的代理

获奖

由一项屡获殊荣的代理基础架构提供支持

凭借超过 15000万 住宅 IP、行业领先的技术,以及可定位任意国家、城市、邮政编码、运营商和 ASN 的能力,我们高端的代理服务成为开发者的首选。

代理网络定价

50% OFF
体验套餐
$8 $4.00 / GB
按量支付
免费试用
使用此促销代码 RESIGB50

无需月度承诺即可使用我们的代理
50% OFF
包含141 GB
$7 $3.50 / GB
$499 月付计划
免费试用
使用此促销代码 RESIGB50

非常适合使用量适中的小型企业
50% OFF
包含332 GB
$6 $3.00 / GB
$999 月付计划
免费试用
使用此促销代码 RESIGB50

为具有广泛运营需求的大型团队设计
50% OFF
包含798 GB
$5 $2.50 / GB
$1999 月付计划
免费试用
使用此促销代码 RESIGB50

为运行大规模操作的企业优化
需要超过1TB的数据吗?
联系我们
  • 不限规模
  • 无限座位
  • 高级服务水平协议
  • 99.99%网络正常运行时间
  • 免费代理管理器
  • 完整的数据覆盖
  • 按GB定制价格
  • 定制解决方案
体验套餐
$8 / GB
按量支付
免费试用
无需月度承诺即可使用我们的代理
包含71 GB
$7 / GB
$499 月付计划
免费试用
非常适合使用量适中的小型企业
包含166 GB
$6 / GB
$999 月付计划
免费试用
为具有广泛运营需求的大型团队设计
包含399 GB
$5 / GB
$1999 月付计划
免费试用
为运行大规模操作的企业优化
需要超过1TB的数据吗?
联系我们
  • 不限规模
  • 无限座位
  • 高级服务水平协议
  • 99.99%网络正常运行时间
  • 免费代理管理器
  • 完整的数据覆盖
  • 按GB定制价格
  • 定制解决方案
体验套餐
$8 / GB
按量支付
免费试用
无需月度承诺即可使用我们的代理
包含71
$7 / GB
$499 月付计划
免费试用
非常适合使用量适中的小型企业
包含166
$6 / GB
$999 月付计划
免费试用
为具有广泛运营需求的大型团队设计
包含399
$5 / GB
$1999 月付计划
免费试用
为运行大规模操作的企业优化
需要超过1TB的数据吗?
联系我们
  • 不限规模
  • 无限座位
  • 高级服务水平协议
  • 99.99%网络正常运行时间
  • 免费代理管理器
  • 完整的数据覆盖
  • 按GB定制价格
  • 定制解决方案
体验套餐
$0.6 / GB
按量支付
免费试用
无需月度承诺即可使用我们的代理
包含1 TB
$0.51 / GB
$499 月付计划
免费试用
非常适合使用量适中的小型企业
包含2 TB
$0.45 / GB
$999 月付计划
免费试用
为具有广泛运营需求的大型团队设计
包含5 TB
$0.42 / GB
$1999 月付计划
免费试用
为运行大规模操作的企业优化
需要超过1TB的数据吗?
联系我们
  • 不限规模
  • 无限座位
  • 高级服务水平协议
  • 99.99%网络正常运行时间
  • 免费代理管理器
  • 完整的数据覆盖
  • 按GB定制价格
  • 定制解决方案
我们接受这些支付方式:

业内最佳的客户体验

您提需求,我们开发

每天发布新功能

24/7全球支持

在您需要时回答任何问题

完全透明

实时网络性能仪表板

专属客户经理

优化您的性能

量身定制的解决方案

满足您的数据收集目标

在代理和数据收集行业中领先者

650TB的公共数据每天收集

每天发布新功能

服务于世界7/10大的顶尖大学

4.6/5 Trustpilot评分

准备好获取 Scrapy 代理了吗?