AI

将 AnythingLLM 连接到 Bright Data Web MCP 服务器

了解如何通过将 AnythingLLM 连接到 Bright Data Web MCP 服务器,为其升级实时数据、网页抓取与高级 AI Agent 能力。
4 分钟阅读
搭配 Web MCP 的 AnythingLLM

在本文中,你将学到:

  • 什么是 AnythingLLM,以及它的优势特点。
  • 为什么将 Bright Data 的 Web MCP 集成到 AnythingLLM 中可以大幅提升能力。
  • 如何将 Web MCP 连接到 AnythingLLM,并配合任意受支持的 AI 模型使用。

我们开始吧!

什么是 AnythingLLM?

AnythingLLM 是一个开源的一体化 AI 平台,用于构建私有、本地的 AI 助手,让你可以使用任意 LLM 与自己的文档(PDF、文本文件等)进行对话。它还支持 RAG、AI agents 以及多种其他工作流。
AnythingLLM GitHub Star 趋势图
在 GitHub 上拥有超过 52k 颗星 的 AnythingLLM,已经成为最受欢迎的开源 AI 解决方案之一。它之所以如此受欢迎,源于其丰富的功能集,包括:

  • 文档交互:上传并与 PDF、TXT、PPTX 等文件进行对话。
  • 本地与云端 LLM:可使用开源模型(Llama、Mistral 等)或商业 API(OpenAI、Anthropic、Gemini 等)。
  • RAG 与引用:从文档中检索相关上下文,并附带来源引用。
  • 隐私优先:桌面和移动应用本地运行,保护你的数据隐私。
  • 多用户与工作区:配置用户管理、权限控制和共享空间。
  • AI agents 和工具:内置用于研究、抓取和基于工具的工作流的 Agent,并支持 MCP 集成。
  • 向量数据库支持:可集成本地或云端向量存储以实现高效检索。

为什么要用 Bright Data Web MCP 扩展 AnythingLLM

AnythingLLM 可以通过 MCP 服务器轻松扩展你的 AI 模型能力。当你在工作区级别连接一个 MCP 服务器后,其中的工具会立即对你配置的所有 AI agent 可用。之后即便你在该工作区中切换模型,新模型依然可以完整访问相同的 MCP 工具。

这种灵活性是 AnythingLLM 最大的优势之一。你可以尝试不同模型、比较它们的输出,或随时升级到更强大的 LLM,而无需改动 MCP 配置。

那么,哪一个 MCP 服务器最有价值?答案是:能解决 LLM 最大限制的那个——知识过时,以及无法与网站交互!

这正是 Web MCP 的设计初衷。这个由 Bright Data 驱动的开源 MCP 服务器,让 AnythingLLM 中的任意 AI 模型都可以搜索全网、获取实时数据,并以编程方式与网站交互。

Web MCP 基于 Bright Data 的网页自动化与数据采集基础设施,提供 60 多个开箱即用的 AI 工具。即使在免费套餐中,你也能使用两个非常实用的工具:

工具 说明
search_engine 以 JSON 或 Markdown 格式获取 Google、Bing 或 Yandex 的搜索结果。
scrape_as_markdown 在绕过反爬虫机制的同时,将任意网页抓取为干净的 Markdown 内容。

在高级套餐(Pro 模式)中,Web MCP 可从 Amazon、Zillow、LinkedIn、YouTube、TikTok、Google Maps、Yahoo Finance 等热门平台提取结构化数据,还提供自动化浏览器操作及众多高级工作流工具。

下面我们就来演示如何在 AnythingLLM 中使用 Web MCP!

如何将 Web MCP 集成到 AnythingLLM 中

在本教程部分,你将学习如何通过 AnythingLLM 内置的 AI agents 使用 Web MCP。无论你配置的是哪种模型,这套方案都可以显著增强 AI 体验。

请按下面的步骤操作!

前置条件

要完成本教程,请确保你已具备:

目前还不需要立即完成 Bright Data 账号的所有配置,后续步骤中会有详细引导。如果你对 MCP 的工作原理以及 Bright Data Web MCP 提供的工具有一定了解,将会更有帮助。

步骤 1:在本地安装 AnythingLLM

下载 AnythingLLM 桌面版安装程序,运行并按照安装向导完成安装。或者,你也可以使用 AnythingLLM Docker 的方式部署。

注意:为了让 AnythingLLM 能够使用你的 GPU(NVIDIA 或 AMD)甚至 NPU,需要先安装一些附加依赖。安装过程中会提示你安装这些包,请选择“是”,否则在运行本地 LLM 时性能会大幅下降。

在你的机器上完成安装后,启动 AnythingLLM,你应该会看到如下界面:
AnythingLLM 欢迎界面
很好!你已经在本地成功运行 AnythingLLM。接下来继续完成设置向导。

步骤 2:完成基础设置

首先,AnythingLLM 会要求你集成一个受支持的 LLM。

如果你本地已经安装了 Ollama,通过它下载的模型将以“推荐模型”的形式显示。这是因为 AnythingLLM 桌面应用内置了一个由 Ollama 驱动的本地 LLM。如果你希望直接使用 Ollama,请参阅如何将 Bright Data Web MCP 集成到 Ollama 中

选择最适合你需求的模型。本文示例中我们使用 Gemini:
在 AnythingLLM 中选择 Gemini 作为 LLM 提供商
注意:任何支持通过 MCP 调用工具的 LLM 都可以完成本次集成,因此你也可以自由选择 AnythingLLM 中可用的其它 LLM

接着,系统会要求你输入 Gemini API Key,并选择具体模型。粘贴你的 API Key,并在本示例中选择 gemini-2.5-flash 模型:
配置 Gemini 集成
当然,你也可以选择任意其他 Gemini 模型。

点击右侧的“→”箭头继续向导:
点击向右箭头继续设置向导

阅读并确认“Data Handling & Privacy”(数据处理与隐私)声明,然后再次点击“→”:
确认数据处理与隐私声明
接下来,你可以选择是否参与 AnythingLLM 的可选问卷调查,也可以直接跳过。

随后系统会提示你创建一个工作区。请根据你的使用场景给工作区起一个有意义的名称。本文示例中,为了简单,我们将其命名为 “Bright Data Web MCP + AnythingLLM”:
初始化 AnythingLLM 工作区

然后你会进入 AnythingLLM 的首页:
AnythingLLM 首页
从这里,你可以访问 AnythingLLM 的所有功能和选项。到这里为止都非常棒!

步骤 3:配置 Bright Data Web MCP

在将 AnythingLLM 连接到 Bright Data Web MCP 之前,请先确保你的本地机器可以运行 MCP 服务器。这一点非常重要,因为我们将演示的是在本地连接 Web MCP 服务器

注意:Web MCP 也可以通过 SSE 和 Streamable HTTP 以远程服务器方式使用,更适合企业级场景。

首先,你需要一个 Bright Data 账号。如果你已经有账号,直接登录即可。为了快速完成配置,请按照控制台中 “MCP” 区块中的引导操作:
Bright Data 控制台中的 MCP 区块
根据页面上的引导完成操作,如需更多说明,可参考下文步骤。

首先生成一个 Bright Data API Key。请妥善保存该 Key,稍后你将用它来让本地 Web MCP 实例与 Bright Data 账号完成身份验证。

接下来,通过全局安装 @brightdata/mcp 包来安装 Web MCP:

npm install -g @brightdata/mcp

然后通过以下命令验证 MCP 服务器是否可以在本地运行:

API_TOKEN="<YOUR_BRIGHT_DATA_API>" npx -y @brightdata/mcp

或者在 PowerShell 中等价的命令:

$Env:API_TOKEN="<YOUR_BRIGHT_DATA_API>"; npx -y @brightdata/mcp

<YOUR_BRIGHT_DATA_API> 占位符替换为你的 Bright Data API Token。这两条等价命令会设置所需的 API_TOKEN 环境变量并在本地启动 Web MCP 服务器。

如果启动成功,你应该会看到类似如下的输出:
Bright Data Web MCP 启动日志

在首次启动时,Web MCP 会在你的 Bright Data 账号中默认创建两个 zone:

这两个服务为 Web MCP 中 60 多个工具提供底层能力支持。

要验证这些 zone 是否已创建,请前往 Bright Data 控制台的 “Proxies & Scraping Infrastructure” 页面。你应该可以在列表中看到这两个 zone:
Web MCP 启动时自动创建的 mcp_unlocker 和 mcp_browser 区域

Web MCP 免费套餐中,仅 search_enginescrape_as_markdown(及其批量版本)可用。

如果你希望解锁所有工具,可以通过设置环境变量 PRO_MODE="true" 启用 Pro 模式:

API_TOKEN="<YOUR_BRIGHT_DATA_API>" PRO_MODE="true" npx -y @brightdata/mcp

或在 Windows 中:

$Env:API_TOKEN="<YOUR_BRIGHT_DATA_API>"; $Env:PRO_MODE="true"; npx -y @brightdata/mcp

Pro 模式会解锁全部 60+ 工具,但不包含在免费套餐中,可能会产生额外费用

太棒了!现在你已经确认 Web MCP 服务器可以在你的机器上正常运行。请先停止 MCP 进程,接下来我们将在 AnythingLLM 中配置它,以便本地启动和连接 MCP 服务器。

步骤 4:将 Web MCP 集成到 AnythingLLM

要在 AnythingLLM 中配置 MCP 服务器,需要编辑 anythingllm_mcp_servers.json 配置文件中的 mcpServers 对象。如果你是通过 Docker 使用 AnythingLLM,请参考专门的 Docker 指南

该配置文件会在你首次打开 AnythingLLM 界面中的 “Agent Skills” 页面时自动创建,因此我们先在 UI 中前往 “Agent Skills”。

首先,点击左下角的 “Open settings” 图标:
点击 Open settings 图标

然后在左侧菜单中选择 “Agent Skills”:
点击 Agent Skills 选项

你将进入 “Agent Skills” 页面:
AnythingLLM UI 中的 Agent Skills 页面
同时,anythingllm_mcp_servers.json 配置文件将会自动创建在以下路径:

  • Mac:/Users/<user>/Library/Application Support/anythingllm-desktop/storage/plugins/
  • Linux:~/.config/anythingllm-desktop/storage/plugins/
  • Windows:C:\Users\<user>\AppData\Roaming\anythingllm-desktop\storage\plugins\

请将 <user> 替换为你的实际用户名。

现在,找到 anythingllm_mcp_servers.json 文件:
找到 anythingllm_mcp_servers.json 文件

用你喜欢的 IDE 打开该文件,并确保其中内容为:

{
  "mcpServers": {
    "bright-data": {
      "command": "npx",
      "args": [
        "-y",
        "@brightdata/mcp"
      ],
      "env": {
        "API_TOKEN": "<YOUR_BRIGHT_DATA_API_KEY>",
        "PRO_MODE": "true"
      }
    }
  }
}

这段配置与之前测试的 npx 命令保持一致,通过环境变量提供凭证和相关设置:

  • API_TOKEN 为必填项,请填入你之前生成的 Bright Data API Key。
  • PRO_MODE 为可选项。如果你只想使用免费套餐中的 search_enginescrape_as_markdown 工具,可以移除该字段。

关于如何填充该配置文件的更多细节,请参考 AnythingLLM 的官方文档

保存 anythingllm_mcp_servers.json 文件后,AnythingLLM 就可以与你本地的 Bright Data Web MCP 实例进行通信了。下面我们来测试连接!

步骤 5:验证 Web MCP 连接

要确认 AnythingLLM 是否能够连接上你的 Web MCP 实例,请在 “Agent Skills” 页面点击 “Refresh” 按钮:
点击 Refresh 按钮
注意:你无需重启 AnythingLLM 桌面应用,对 anythingllm_mcp_servers.json 所做的更改会被即时应用。

在 “MCP Servers” 区块中,你应该能看到一个 “Bright Data” 条目。点击它就可以查看 MCP 已暴露的所有工具列表:
Bright Data Web MCP 暴露的工具列表
本示例中,Web MCP 以 Pro 模式配置,因此可以访问 60 多个工具。如果你处于免费套餐,则只会看到对应套餐可用的工具。你可以浏览 Web MCP 的完整工具列表,并查看每个工具所在的套餐。

现在,Bright Data Web MCP 已经在 AnythingLLM 中完成配置,接下来我们将在一个典型场景中让它“实战”一次!

步骤 6:测试 Bright Data Web MCP + AnythingLLM 集成

此时,你在 AnythingLLM 中配置的 AI 模型已经可以访问 Web MCP 提供的所有网页数据检索和浏览器交互工具。

为了测试这次集成,假设你正在寻找在纽约租一套公寓。逐条手动查看房源以找到符合自己需求的那一套既费时又枯燥。如果你先通过 在 Zillow 上应用筛选条件,就可以根据预算、卧室数量、位置和其他条件筛选房源:
在 Zillow 上应用筛选条件

在筛选结果中,假设你挑出了以下 3 套房源:

- https://www.zillow.com/homedetails/104-69-88th-Ave-2R-Richmond-Hill-NY-11418/458388893_zpid/
- https://www.zillow.com/homedetails/210-W-133rd-St-4K-New-York-NY-10030/455270422_zpid/
- https://www.zillow.com/homedetails/Bronx-NY-10458/2105819305_zpid/

你希望一个 AI agent 能够对它们进行评估并帮助你选出最合适的一套。

回到 AnythingLLM 工作区,先点击 “Send Chat” 按钮:
点击 Send Chat 按钮

然后使用如下命令初始化 AI agent

@agent

这会启动一个 AI agent 会话:
在 AnythingLLM 聊天窗口中启动 AI agent 会话

注意:使用 @agent 注解来启动 AI agent 是必需的,因为 MCP 服务器是与工作区中的 AnythingLLM agent 集成,而不是直接与标准 LLM 模型集成。你可以阅读更多关于 AnythingLLM 中 AI agents 的说明

接下来,发送一个 Prompt,帮助 agent 基于抓取到的房源数据进行决策:

You are a property listing expert. Retrieve the property listing details from the following Zillow listings using the most specific MCP tool:
- "https://www.zillow.com/homedetails/104-69-88th-Ave-2R-Richmond-Hill-NY-11418/458388893_zpid/"
- "https://www.zillow.com/homedetails/210-W-133rd-St-4K-New-York-NY-10030/455270422_zpid/"
- "https://www.zillow.com/homedetails/Bronx-NY-10458/2105819305_zpid/"

Based on the information provided, rank the 3 properties. For each property, include the URL, a brief description with the main details, and list up to 3 pros and up to 3 cons explaining why I should consider it.

为了让示例更贴近你的真实需求,你可以在实际使用时补充更多信息,例如你的偏好、预算、通勤需求等,以便引导 Agent 做出更符合期望的判断。

运行上述 Prompt 后,你应该会看到类似如下的结果:
在 AnythingLLM 中执行 Prompt 的过程演示
可以看到,AI agent 能够自动识别并调用合适的 Bright Data Web MCP 工具,以编程方式从指定的 Zillow 房源 URL 中抓取结构化数据,然后对数据进行处理并输出排序结果。

根据该 AI agent 的分析,ZPID 为 2105819305 的房源是最佳选择,具体原因会体现在返回结果中:
AI agent 给出的房源排序与分析结果
需要强调的是,单独使用 Gemini(或其他标准 LLM)是无法完成上述任务的。普通 LLM 无法实时抓取 Zillow 或其他网站的数据,而且 Zillow 采取了多种反爬虫措施,为构建自定义 Zillow 抓取器并集成到 AI 系统中增加了不少难度。

如果你展开 Agent 的运行详情下拉菜单,可以看到关于 Web MCP 调用的更多信息:
AI agent 运行中调用的 Web MCP 工具信息
注意,AI agent 成功调用了配置在 Bright Data MCP 服务器中的 web_data_zillow_properties_listing 工具。该 Pro 工具的定义为:“快速读取 Zillow 房源页面的结构化数据。需要一个有效的 Zillow 房源链接。通常比直接抓取 HTML 更快、更稳定。” 可以看出,Agent 做出了正确的工具选择。

得益于 Bright Data Web MCP 工具,AI agent 可以高效、稳定地抓取 Zillow。实际上,web_data_zillow_properties_listing 工具的背后是 Bright Data Zillow Scraper

这个示例只是众多应用场景中的一个。你可以大胆尝试不同的 Prompt,并测试更多 Bright Data Web MCP 工具,以解决更广泛的业务场景

Et voilà!现在你已经体验到将 AnythingLLM 连接到 Bright Data Web MCP 所带来的强大能力。

总结

在本文中,你了解了如何在 AnythingLLM 中利用 MCP 集成能力。具体来说,你看到了如何通过 Bright Data Web MCP 的工具来扩展热门 AI 模型的功能。

通过这一集成,你的 AI 模型可以获得网页搜索、结构化数据抽取、实时网页数据获取和自动化网页交互等强大能力。若想构建更复杂的 AI 工作流,欢迎继续探索 Bright Data AI 生态系统中提供的完整服务套件。

立即创建一个免费的 Bright Data 账号,开始体验我们的网页数据工具吧!

支持支付宝等多种支付方式

Antonello Zanini

技术写作

5.5 years experience

Antonello是一名软件工程师,但他更喜欢称自己为技术传教士。通过写作传播知识是他的使命。

Expertise