Bright Data Web MCP 服务器：面向代理开发者的免费套餐

在 2024 年 11 月，模型上下文协议（MCP）发布时，曾承诺成为“代理的 USB-C” — 一种将 API 转换为代理兼容工具的通用方式。

我们当时并不确定它会不会成为标准，因此并未急于行动。我们以一个目标为导向进行研究、测试与迭代：让公共网页的数据真正“公共” — 不仅对人类，也对 AI 代理。

如今，转变已显而易见：代理正被部署到各个领域 — 生产系统、研究流程、客户支持流程。没有对实时且相关数据的访问，它们表现不佳，甚至会直接失败。我们构建了Web MCP 服务器来解决这一问题，并从今天起向所有人免费开放试用。

1. 我们面临的问题

要让代理值得信任，它们需要实时上下文。公共网页拥有这些上下文，但：

内容混乱、JS 繁重，且常被 CAPTCHA 阻挡。
LLM 无法在没有结构化桥梁的情况下“直接浏览”。
仅工具发现（MCP 工具枚举）就可能在真正开始工作前消耗数千个 token。

在最初发布时，我们有 9 个工具 — 基础爬虫、通过 Playwright（CDP）进行浏览器控制、浏览器会话管理、搜索引擎，以及 scrape_as_markdown 实用工具。随着时间推移，我们扩展到了60 个工具，覆盖：

电子商务
社交媒体
新闻
房地产
金融
LinkedIn/人力资源

我们为这些特定工具使用了 Bright Data 的Web Scraper API，因此代理获得的是结构化的 JSON，而不是原始 Markdown。

2. 使用带给我们的启示

经过数月的真实流量考验，一个事实尤为突出：约 90% 的代理调用只使用了两个工具：

search_engine — returns SERP results.
scrape_as_markdown — fetches any URL as clean markdown.

其余工具在小众场景中有用，但它们的存在带来了高昂的成本。

3. 17K token 的握手问题

在 MCP 中，每次连接都从 /list/tools 开始。通过这种方式，客户端可以将有哪些工具、何时使用、以及能实现什么发送给 LLM。拥有 60 个工具时，仅这份列表就耗费约 17,000 个 token — 在任何实际查询开始之前。

对很多开发者而言，这样的 token 消耗已经足以让他们放弃通过 MCP 访问网页，而且 LLM 往往会困惑、不能正确选择工具。我们必须修复它。

4. 快速模式 vs 专业模式

我们将 MCP 服务器拆分为两种模式：

快速（默认）
- 仅包含 search_engine 和 scrape_as_markdown。
- 几乎为零的握手 token 成本。
- 覆盖大多数代理的搜索 + 抽取任务。
专业（可选）
- 全部 60 个工具，包括垂直领域的结构化爬虫。
- 适用于 token 成本物有所值的专门流程。

结果：启动更快、token 浪费最小，对只需获取数据的开发者而言也不再有意外的复杂性。

5. 为什么 scrape_as_markdown 与众不同

我们的 Markdown 抓取器：

适用于任何网站 — 即使有 CAPTCHA（自动解决）。
可稳定处理重度 JavaScript 网站。
返回干净、对 LLM 友好的内容。

其他 MCP 网页集成往往止步于“GET HTML”，而这在现代网页环境中经常失效。我们的设计能够在真实世界条件下可靠运行。

6. 架构概览

服务器：单一 MCP 端点。
快速模式：最小握手，仅 2 个高价值工具。
专业模式：完整的 60 个工具面。

7. 性能与可靠性

Token 成本：17K → 在快速模式下接近于零。
CAPTCHA 处理：在 scrape_as_markdown 中自动完成。
延迟：取决于目标站点；MCP 自身开销极小。
故障模式：多为站点特定；内置健壮的重试逻辑。

8. 开发者体验

使用 LangChain 快速开始

from langchain_mcp_adapters.client import MultiServerMCPClient
from langgraph.prebuilt import create_react_agent

client = MultiServerMCPClient({
    "brightdata": {
        "url": "https://mcp.brightdata.com/mcp?token=",
        "transport": "streamable_http",
    }
})

tools = await client.get_tools()
agent = create_react_agent("openai:gpt-4.1", tools)
weather_response = await agent.ainvoke({"messages": "what is the weather in nyc?"})

9. 免费套餐：没有借口

从今天开始：

每月 5,000 次请求（按月重置）。
包含快速模式（搜索 + 抓取）。
与付费档位拥有相同的 CAPTCHA 解决与站点访问能力。
升级到 Pro 以获得完整的结构化工具集。

如果你的代理未连接到实时网络，它已经过时 — 而在生产环境中，这是一种风险。几个月前训练的模型会自信地对时间敏感的问题给出错误答案。既然现在可以免费修复这一点，就没有不去做的理由。

10. 让我们意外的发现

使用集中：两个工具处理了大多数请求。
Token 成本比延迟更影响采用。
CAPTCHA 处理至关重要 — 没有它，太多页面会失败。

11. 路线图（后续工作）

添加 Discovery 爬虫，以受限输出的方式探索网页。
更高效的批量抓取与结果过滤。
在 Pro 模式中提供更多垂直爬虫（包括 AI 爬虫！）。
改进工具描述，帮助代理更好地理解如何使用。
改进现有工具的响应结构。

免费注册，将你的代理连接到网络。看看当它能够使用实时、结构化的网页数据时，会发生什么变化。

联系销售开始免费试用

支持支付宝等多种支付方式

Meir Kadosh

AI Engineer

5 years experience

Meir 是 Bright Data 的 AI 工程师，使用最前沿的生成式 AI（GenAI）和自动化，构建能将实时网页数据转化为可操作答案的代理。

Expertise

Python AI 代理网页数据

View all articles

Bright Data 的 Web MCP 服务器 – 现已推出面向代理开发者的免费套餐

1. 我们面临的问题

2. 使用带给我们的启示

4. 快速模式 vs 专业模式

5. 为什么 scrape_as_markdown 与众不同

6. 架构概览

7. 性能与可靠性

8. 开发者体验

使用 LangChain 快速开始

9. 免费套餐：没有借口

10. 让我们意外的发现

11. 路线图（后续工作）

你也可能对此有兴趣

用于 AI 和 ML 模型训练的合成数据与真实网络数据

将 Stagehand 与 Bright Data 的 Browser API 集成，实现可扩展的云端浏览器自动化

在 Amazon SageMaker 中使用网页数据进行特征工程：分步教程

Bright Data 的 Web MCP 服务器 – 现已推出面向代理开发者的免费套餐

1. 我们面临的问题

2. 使用带给我们的启示

4. 快速模式 vs 专业模式

5. 为什么 scrape_as_markdown 与众不同

6. 架构概览

7. 性能与可靠性

8. 开发者体验

使用 LangChain 快速开始

9. 免费套餐：没有借口

10. 让我们意外的发现

11. 路线图 （后续工作）

你也可能对此有兴趣

用于 AI 和 ML 模型训练的合成数据与真实网络数据

将 Stagehand 与 Bright Data 的 Browser API 集成，实现可扩展的云端浏览器自动化

在 Amazon SageMaker 中使用网页数据进行特征工程：分步教程

11. 路线图（后续工作）