Blog / AI
AI

Bright Data 的 Web MCP 服务器 – 现已推出面向代理开发者的免费套餐

Bright Data 的 Web MCP 服务器现已为 AI 代理开发者提供免费、快速的网页访问工具。
1 分钟阅读
Web MCP 服务器——现已推出面向代理开发者的免费套餐(博客配图)

在 2024 年 11 月,模型上下文协议(MCP)发布时,曾承诺成为“代理的 USB-C” — 一种将 API 转换为代理兼容工具的通用方式。

我们当时并不确定它会不会成为标准,因此并未急于行动。我们以一个目标为导向进行研究、测试与迭代:让公共网页的数据真正“公共” — 不仅对人类,也对 AI 代理。

如今,转变已显而易见:代理正被部署到各个领域 — 生产系统、研究流程、客户支持流程。没有对实时且相关数据的访问,它们表现不佳,甚至会直接失败。我们构建了Web MCP 服务器来解决这一问题,并从今天起向所有人免费开放试用。

1. 我们面临的问题

要让代理值得信任,它们需要实时上下文。公共网页拥有这些上下文,但:

  • 内容混乱、JS 繁重,且常被 CAPTCHA 阻挡。
  • LLM 无法在没有结构化桥梁的情况下“直接浏览”。
  • 仅工具发现(MCP 工具枚举)就可能在真正开始工作前消耗数千个 token。

在最初发布时,我们有 9 个工具 — 基础爬虫、通过 Playwright(CDP)进行浏览器控制、浏览器会话管理、搜索引擎,以及 scrape_as_markdown 实用工具。随着时间推移,我们扩展到了60 个工具,覆盖:

  • 电子商务
  • 社交媒体
  • 新闻
  • 房地产
  • 金融
  • LinkedIn/人力资源

我们为这些特定工具使用了 Bright Data 的Web Scraper API,因此代理获得的是结构化的 JSON,而不是原始 Markdown。

2. 使用带给我们的启示

经过数月的真实流量考验,一个事实尤为突出:约 90% 的代理调用只使用了两个工具

  1. search\_engine — returns SERP results.
  2. scrape\_as\_markdown — fetches any URL as clean markdown.

其余工具在小众场景中有用,但它们的存在带来了高昂的成本。

3. 17K token 的握手问题

在 MCP 中,每次连接都从 /list/tools 开始。通过这种方式,客户端可以将有哪些工具、何时使用、以及能实现什么发送给 LLM。拥有 60 个工具时,仅这份列表就耗费约 17,000 个 token — 在任何实际查询开始之前。

对很多开发者而言,这样的 token 消耗已经足以让他们放弃通过 MCP 访问网页,而且 LLM 往往会困惑、不能正确选择工具。我们必须修复它。

4. 快速模式 vs 专业模式

我们将 MCP 服务器拆分为两种模式:

  • 快速(默认)
    • 仅包含 search_engine 和 scrape_as_markdown。
    • 几乎为零的握手 token 成本。
    • 覆盖大多数代理的搜索 + 抽取任务。
  • 专业(可选)
    • 全部 60 个工具,包括垂直领域的结构化爬虫。
    • 适用于 token 成本物有所值的专门流程。

结果:启动更快、token 浪费最小,对只需获取数据的开发者而言也不再有意外的复杂性。

5. 为什么 scrape_as_markdown 与众不同

我们的 Markdown 抓取器:

  • 适用于任何网站 — 即使有 CAPTCHA(自动解决)。
  • 可稳定处理重度 JavaScript 网站。
  • 返回干净、对 LLM 友好的内容。

其他 MCP 网页集成往往止步于“GET HTML”,而这在现代网页环境中经常失效。我们的设计能够在真实世界条件下可靠运行。

6. 架构概览

  • 服务器:单一 MCP 端点。
  • 快速模式:最小握手,仅 2 个高价值工具。
  • 专业模式:完整的 60 个工具面。

7. 性能与可靠性

  • Token 成本:17K → 在快速模式下接近于零。
  • CAPTCHA 处理:在 scrape_as_markdown 中自动完成。
  • 延迟:取决于目标站点;MCP 自身开销极小。
  • 故障模式:多为站点特定;内置健壮的重试逻辑。

8. 开发者体验

使用 LangChain 快速开始

from langchain_mcp_adapters.client import MultiServerMCPClient
from langgraph.prebuilt import create_react_agent

client = MultiServerMCPClient({
    "brightdata": {
        "url": "https://mcp.brightdata.com/mcp?token=",
        "transport": "streamable_http",
    }
})

tools = await client.get_tools()
agent = create_react_agent("openai:gpt-4.1", tools)
weather_response = await agent.ainvoke({"messages": "what is the weather in nyc?"})

9. 免费套餐:没有借口

从今天开始:

  • 每月 5,000 次请求(按月重置)。
  • 包含快速模式(搜索 + 抓取)。
  • 与付费档位拥有相同的 CAPTCHA 解决与站点访问能力。
  • 升级到 Pro 以获得完整的结构化工具集。

如果你的代理未连接到实时网络,它已经过时 — 而在生产环境中,这是一种风险。几个月前训练的模型会自信地对时间敏感的问题给出错误答案。既然现在可以免费修复这一点,就没有不去做的理由。

10. 让我们意外的发现

  • 使用集中:两个工具处理了大多数请求。
  • Token 成本比延迟更影响采用。
  • CAPTCHA 处理至关重要 — 没有它,太多页面会失败。

11. 路线图 (后续工作)

  • 添加 Discovery 爬虫,以受限输出的方式探索网页。
  • 更高效的批量抓取与结果过滤。
  • 在 Pro 模式中提供更多垂直爬虫(包括 AI 爬虫!)。
  • 改进工具描述,帮助代理更好地理解如何使用。
  • 改进现有工具的响应结构。

免费注册,将你的代理连接到网络。看看当它能够使用实时、结构化的网页数据时,会发生什么变化。

支持支付宝等多种支付方式

Meir Kadosh

AI Engineer

5 years experience

Meir 是 Bright Data 的 AI 工程师,使用最前沿的生成式 AI(GenAI)和自动化,构建能将实时网页数据转化为可操作答案的代理。

Expertise
Python AI 代理 网页数据