Blog / AI
AI

将 Gemini CLI 接入 Bright Data 的 Web MCP 服务器

了解如何将 Gemini CLI 与 Bright Data 的 Web MCP 集成,在终端中实现高级的网页增强型 AI 编码体验。
3 分钟阅读
Gemini 命令行工具 × Bright Data MCP

在本教程中,你将学习:

  1. 什么是 Gemini CLI,以及它为何在开发者社区中广受欢迎。
  2. 如何通过加入网页交互与数据提取能力把它提升到新水平。
  3. 如何将 Gemini CLI 连接到 Bright Data 的 Web MCP 服务器,以构建增强型 AI 编码代理。

让我们开始吧!

什么是 Gemini CLI?

Gemini CLI 是 Google 开发的一款 AI 代理,它将 Gemini 大语言模型的能力直接带到你的终端。该工具旨在提高开发者效率并简化各类任务,尤其是与编码相关的任务。

开源库可通过 Node.js 包使用。撰文时,它已在 GitHub 收获超 6.7 万星标。尽管发布仅数月,社区热情与采用速度都非常亮眼。

具体来说,Gemini CLI 的特别之处在于:

  • 直接在终端交互:可在命令行中直接与 Gemini 模型交互。
  • 专注编码:帮助调试、生成新功能、提升测试覆盖率,甚至可根据提示或草图创建新应用。
  • 工具集成与可扩展性:利用 ReAct(“推理并行动”)循环,并可集成内置工具(如 grepterminal文件读/写)以及外部 MCP 服务器。
  • 免费使用:Google 提供了相当慷慨的免费层,使其更易获得。
  • 多模态能力:支持从图片或草图中生成代码等任务。

为何要为 Gemini CLI 扩展网页交互与数据提取能力?

无论 Gemini CLI 集成的 Gemini 模型多么强大,它们仍然面临所有大语言模型共有的限制。

Gemini 模型只能基于其训练用的静态数据集进行回答。但那只是过去的快照!此外,LLM 无法像人类用户那样渲染或与实时网页交互,因此其准确性与行动范围天然受限。

现在,想象一下,为你的 Gemini CLI 编码助手赋予获取实时教程、文档页面与指南并从中学习的能力。再想象它可以像导航你的文件系统一样与任意在线网站互动。这将是一次能力上的飞跃,而通过集成 Bright Data Web MCP 服务器即可实现。

Bright Data Web MCP 服务器提供 60+ 款面向 AI 的工具,用于实时网页数据采集与网页交互。这些都由 Bright Data 丰富的 AI 数据基础设施驱动。

查看 Bright Data Web MCP 服务器所暴露工具的完整列表,请参阅文档

将 Gemini CLI 与 Web MCP 结合,你可以做到:

  • 检索搜索引擎结果页(SERP),自动为报告或文章插入上下文链接。
  • 让 Gemini 抓取最新教程或文档,从中学习,然后相应地生成代码或项目模板。
  • 从真实网站抓取数据并保存在本地,用于模拟、测试或分析。

下面通过一个实践示例来展示这种集成!

如何在 Gemini CLI 中集成 Web MCP 服务器

学习如何在本地安装和配置 Gemini CLI,并将其与 Bright Data 的 Web MCP 服务器集成。我们将用该环境来:

  1. 抓取一个亚马逊商品页面。
  2. 将数据保存在本地。
  3. 创建一个 Node.js 脚本来加载并处理这些数据。

按照以下步骤进行!

先决条件

要复现本教程的步骤,请确保你具备:

  • 本地安装 Node.js 20+(推荐使用最新 LTS 版本)。
  • Gemini API 密钥或 Vertex AI API 密钥(这里我们使用 Gemini API 密钥)。
  • 一个 Bright Data 账号。

现在暂时不需要配置 API 密钥。后续步骤会指导你在合适时机配置 Gemini 与 Bright Data 的 API 密钥。

虽然不是硬性要求,但以下背景知识会有所帮助:

  • 对 MCP 工作原理的基本理解。
  • 对 Bright Data Web MCP 服务器及其可用工具有一定了解。

步骤 1:安装 Gemini CLI

要开始使用 Gemini CLI,首先需要在 Google AI Studio 生成一个 API 密钥。按照官方说明获取你的 Gemini API 密钥。

注意:如果你已有或更倾向使用 Vertex AI API 密钥,请参考官方文档

拿到 Gemini API 密钥后,打开终端,用以下 Bash 命令将其设置为环境变量:

export GEMINI_API_KEY="<YOUR_GEMINI_API_KEY>"

或在 Windows 的 PowerShell 中:

$env:GEMINI_API_KEY="<YOUR_GEMINI_API_KEY>"

<YOUR_GEMINI_API_KEY> 替换为你实际生成的密钥。

接着,通过官方的 @google/gemini-cli 包全局安装 Gemini CLI:

npm install -g @google/gemini-cli

在设置了 GEMINI_API_KEY(或 VERTEX_API_KEY)的同一终端会话中,启动 Gemini CLI:

gemini

你应能看到如下界面:

Gemini CLI 认证界面

按下 Enter 选择选项 2(“Use Gemini API key”)。CLI 将自动检测你的 API 密钥并进入提示界面:

Gemini CLI 提示界面

在 “Type your message or @path/to/file” 区域,你可以直接输入提示词,或引用一个文件交给 Gemini CLI 执行。

右下角你会注意到 Gemini CLI 正在使用 gemini-2.5-pro 模型。这是默认配置的模型。幸运的是,Gemini API 提供免费层,对 gemini-2.5-pro 模型每天最多 100 次请求,因此即使没有付费计划也能进行测试。

如果你希望使用限速更高的模型,例如 gemini-2.5-flash,可以在启动 CLI 前通过 GEMINI_MODEL 环境变量进行设置。在 Linux 或 macOS 上,执行:

export GEMINI_MODEL="gemini-2.5-flash"

在 Windows 上等效命令为:

$env:GEMINI_MODEL="gemini-2.5-flash"

然后照常用 gemini 命令启动 Gemini CLI。

很好!Gemini CLI 现已就绪。

步骤 2:开始使用 Bright Data Web MCP 服务器

如果你还没有账号,请先注册 Bright Data。已有账号则直接登录。

然后按照官方说明生成 Bright Data API 密钥。为简化起见,此步骤默认你使用的是具有管理员权限的令牌。

通过以下命令全局安装 Bright Data Web MCP 服务器

npm install -g @brightdata/mcp

然后,用下面的 Bash 命令测试一切是否正常:

API_TOKEN="<YOUR_BRIGHT_DATA_API>" npx -y @brightdata/mcp

在 Windows 的 PowerShell 中等效命令为:

$env:API_TOKEN="<YOUR_BRIGHT_DATA_API>"; npx -y @brightdata/mcp

请务必将 <YOUR_BRIGHT_DATA_API> 占位符替换为你之前获取的实际 API 令牌。两条命令都会设置所需的 API_TOKEN 环境变量,并通过 @brightdata/mcp npm 包启动 MCP 服务器。

如果一切正常,你应该能看到如下日志:

Bright Data MCP 服务器启动日志

首次启动时,MCP 服务器会在你的 Bright Data 账号中自动创建两个默认代理区域(zone):

这两个区域是启用 MCP 服务器全套工具所必需的。

要确认这些区域已创建,请登录 Bright Data 控制台并进入“Proxies & Scraping Infrastructure”页面。你应能看到两者都已列出:

MCP 服务器启动时创建的 mcp_unlocker 与 mcp_browser 区域

注意:如果你使用的 API 令牌不具备管理员权限,这些区域不会自动创建。在这种情况下,你需要手动创建它们,并通过环境变量指定它们的名称,具体请参见官方文档

默认情况下,MCP 服务器仅暴露 search_enginescrape_as_markdown 工具。若要解锁浏览器自动化与结构化数据提取等高级功能,请在启动 MCP 服务器前设置环境变量 PRO_MODE=true 以启用专业模式:

API_TOKEN="<YOUR_BRIGHT_DATA_API>" PRO_MODE="true" npx -y @brightdata/mcp

在 Windows 上:

$env:API_TOKEN="<YOUR_BRIGHT_DATA_API>"; $env:PRO_MODE="true"; npx -y @brightdata/mcp

太棒了!你已经在本机验证了 Bright Data Web MCP 服务器运行正常。现在可以结束该进程,因为接下来将配置由 Gemini CLI 来启动它。

步骤 3:在 Gemini CLI 中配置 Web MCP 服务器

Gemini CLI 支持通过配置文件集成 MCP。该文件位于 ~/.gemini/settings.json,其中 ~ 表示你的主目录;在 Windows 上为 $HOME/.gemini/settings.json

你可以用 VS Code 打开该文件:

code "~/.gemini/settings.json"

或在 Windows 上:

code "$HOME/.gemini/settings.json"

注意:如果 settings.json 尚不存在,你可能需要手动创建。

settings.json 中,配置 Gemini CLI 以子进程方式自动启动 Bright Data Web MCP 服务器并连接到它。确保 settings.json 包含:

{
  "mcpServers": {
    "brightData": {
      "command": "npx",
      "args": [
        "-y",
        "@brightdata/mcp"
      ],
      "env": {
        "API_TOKEN": "<YOUR_BRIGHT_DATA_API_KEY>",
        "PRO_MODE": "true"
      }
    }
  }
}

上述配置中:

  • mcpServers 对象告诉 Gemini CLI 如何启动外部 MCP 服务器。
  • brightData 条目定义了运行 Bright Data Web MCP 服务器所需的命令和环境变量(启用 PRO_MODE 可选但推荐)。注意,这与之前你测试的命令完全一致,只是现在由 Gemini CLI 在后台自动执行。

重要:将 <YOUR_BRIGHT_DATA_API_KEY> 占位符替换为你的实际 Bright Data API 令牌,以完成认证。

添加 MCP 服务器配置后,保存文件。现在你已准备好在 Gemini CLI 内测试 MCP 集成!

步骤 4:验证 MCP 连接

如果 Gemini CLI 仍在运行,请使用 /quit 退出,然后重新启动。此时它应会自动连接到 Bright Data Web MCP 服务器。

要验证连接情况,请在 Gemini CLI 中输入 /mcp 命令:

输入 /mcp 命令

然后选择 list 选项以查看已配置的 MCP 服务器与可用工具。按下 Enter,你应能看到类似如下的内容:

Gemini CLI 中的 Bright Data MCP 服务器集成

如你所见,Gemini CLI 已连接到 Bright Data Web MCP 服务器,并可访问其提供的 60+ 个工具。干得漂亮!

提示:在文档中探索其他所有Gemini CLI 命令

步骤 5:在 Gemini CLI 中运行一个任务

要测试你的 Gemini CLI 设置的网页能力,可以使用如下提示词:

Scrape data from "https://www.amazon.com/AmazonBasics-Pound-Neoprene-Dumbbells-Weights/dp/B01LR5S6HK/" and store the resulting JSON data in a local data.json file. Then, create a Node.js index.js script to load and print its contents.

这代表一个真实世界用例,有助于为分析、API 模拟或测试收集实时数据。

将该提示词粘贴到 Gemini CLI 中:

在 Gemini CLI 中的提示词

然后按 Enter 执行。代理将这样处理你的任务:

在 Gemini CLI 中执行提示词

上面的 GIF 已加速,但应当会发生以下流程:

  1. Gemini CLI 将你的提示发送给已配置的 LLM(即 gemini-2.5-pro)。
  2. LLM 选择合适的 MCP 工具(此处为 web_data_amazon_product)。
  3. 系统会请求你确认是否可通过 Web MCP 使用提供的亚马逊商品 URL 运行该工具。
  4. 批准后,通过 MCP 集成启动抓取任务。
  5. 抓取到的商品数据将以原始格式(JSON)展示。
  6. Gemini CLI 会询问是否可将这些数据保存到名为 data.json 的本地文件。
  7. 你同意后,文件将被创建并写入内容。
  8. 随后,Gemini CLI 展示 index.js 的 JavaScript 逻辑,用于加载并打印 JSON 数据。
  9. 你批准后,将创建 index.js 文件。
  10. 系统会请求运行该 Node.js 脚本的权限。
  11. 授权后,执行 index.js,并如任务所述在终端打印 data.json 中的数据。
  12. Gemini CLI 会询问你是否要删除生成的文件。
  13. 选择保留它们,以结束执行。

请注意,即使你没有在任务中明确要求脚本执行,Gemini CLI 仍会请求执行脚本。出于测试目的,这样做很有用,实乃对任务的合理补充。

交互结束时,你的工作目录中会有这两个文件:

├── data.json
└── index.js

在 VS Code 中打开 data.json,你会看到:

VS Code 中打开的 data.json

该文件包含通过 Bright Data Web MCP 集成从亚马逊抓取的真实商品数据。

同样地,打开 index.js 可看到:

VS Code 中打开的 index.js

该脚本包含用于加载并展示 data.json 内容的 Node.js 逻辑。

通过以下命令执行 Node.js 脚本 index.js

node index.js

输出结果如下:

最终输出结果

大功告成!工作流顺利完成。

具体而言,终端中打印的 data.json 内容与原始亚马逊商品页面上的实际数据一致:

用于数据采集的亚马逊商品页面示例

请记住,data.json 中的数据是真实抓取的,而非 AI 幻觉或捏造的内容。此外,亚马逊以其强大的反爬虫保护(例如 Amazon CAPTCHA)而闻名,抓取并不容易!一般的 LLM 做不到这一点。

因此,该示例展示了将 Gemini CLI 与 Bright Data 的 Web MCP 服务器结合的强大之处。现在,试试更多提示词,在 CLI 中探索更高级的 LLM 驱动数据工作流吧!

结语

在本文中,你学习了如何将 Gemini CLI 与 Bright Data Web MCP 服务器连接,以构建一个能够访问网络的 AI 编码代理。这一集成得益于 Gemini CLI 对 MCP 的内置支持。

若要构建更复杂的代理,请探索 Bright Data AI 基础设施提供的全套服务。它们能支撑多种代理型场景

免费创建一个 Bright Data 账号,开始体验我们面向 AI 的网页数据工具吧!

支持支付宝等多种支付方式

Antonello Zanini

技术写作

5.5 years experience

Antonello是一名软件工程师,但他更喜欢称自己为技术传教士。通过写作传播知识是他的使命。

Expertise
Web 开发 网页抓取 AI 集成