Scrapy 代理集成
本指南可能已过时。获取最新指南请参阅 我们的文档。
什么是 Scrapy?
Scrapy 是一个用于网页爬取与抓取的 Python 框架,可帮助用户从网站中提取结构化数据。它开源、快速且可扩展。Scrapy 可用于多种场景,例如数据挖掘、监控以及自动化测试。
Scrapy 与 Bright Data 代理集成
打开你常用的 IDE 并新建一个 Scrapy 项目,在命令行输入:
scrapy startproject
这将创建一个以项目名命名的新文件夹。在该文件夹中打开一个 Python 文件。
- 进入 Bright Data 控制台并点击“Proxies & Scraping Infra”(代理与采集基础设施)图标
- 点击“Add”(添加)创建新的代理 zone,选择网络类型,配置代理并点击保存
- 在你的代理 zone 的“Access parameters”(访问参数)标签页中,你可以找到“USERNAME(用户名)”与“PASSWORD(密码)”。
- 在 Scrapy 的 spider 代码文件中,于请求的 meta 参数里将“proxy”设置为以下值,并使用上述“USERNAME”和“PASSWORD”:http://USERNAME:[email protected]:33335
- 例如:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://USERNAME:[email protected]:33335"
yield request
def parse(self, response):
print(response.body)
然后在命令行中运行以下命令:
scrapy runspider
如何在 Scrapy 中使用 Bright Data Proxy Manager
- 创建一个代理 zone,方式与上面“直接集成”部分相同
- 安装 Proxy Manager
- 点击“add new port”(添加新端口)并按你的使用场景进行配置
- 在 Scrapy 的 spider 代码文件中,于请求的 meta 参数里将“proxy”设置为:http://IP:PORTNUMBER
- 本地主机 IP 为 127.0.0.1——如果 Proxy Manager 安装在你的机器上,需要使用该值;如果 Proxy Manager 安装在外部服务器上,请填写该服务器的 IP 地址
- Proxy Manager 中创建的端口为 24XXX,例如 24000(默认第一个端口号)
- 例如:
import scrapy
class BrightdatascrapyexampleSpider(scrapy.Spider):
name = "BrightDataScrapyExample"
def start_requests(self):
request = scrapy.Request(url="http://example.com",callback=self.parse)
request.meta['proxy'] = "http://127.0.0.1:24000"
yield request
def parse(self, response):
print(response.body)
⚠️重要提示:如果你使用的是 Bright Data 的住宅代理(Residential Proxies)、Web Unlocker 或 SERP API,则需要安装 SSL 证书,以启用与目标网站之间端到端的安全连接。这是一个简单的过程,安装说明请参见 https://docs.brightdata.com/general/account/ssl-certificate#installation-of-the-ssl-certificate。
获取适用于 Scrapy 的代理
由一项屡获殊荣的代理基础架构提供支持
凭借超过 15000万 住宅 IP、行业领先的技术,以及可定位任意国家、城市、邮政编码、运营商和 ASN 的能力,我们高端的代理服务成为开发者的首选。
适用于所有开发路径的代理
在网络、节点与 IP 之间自由组合,优化你持续不断的网页数据流。
代理网络定价
我们接受这些支付方式:
业内最佳的客户体验
您提需求,我们开发
每天发布新功能
24/7全球支持
在您需要时回答任何问题
完全透明
实时网络性能仪表板
专属客户经理
优化您的性能
量身定制的解决方案
满足您的数据收集目标
在代理和数据收集行业中领先者
650TB的公共数据每天收集
每天发布新功能
服务于世界7/10大的顶尖大学
4.6/5 Trustpilot评分