在 2024 年 11 月,模型上下文协议(MCP)发布时,曾承诺成为“代理的 USB-C” — 一种将 API 转换为代理兼容工具的通用方式。
我们当时并不确定它会不会成为标准,因此并未急于行动。我们以一个目标为导向进行研究、测试与迭代:让公共网页的数据真正“公共” — 不仅对人类,也对 AI 代理。
如今,转变已显而易见:代理正被部署到各个领域 — 生产系统、研究流程、客户支持流程。没有对实时且相关数据的访问,它们表现不佳,甚至会直接失败。我们构建了Web MCP 服务器来解决这一问题,并从今天起向所有人免费开放试用。
1. 我们面临的问题
要让代理值得信任,它们需要实时上下文。公共网页拥有这些上下文,但:
- 内容混乱、JS 繁重,且常被 CAPTCHA 阻挡。
- LLM 无法在没有结构化桥梁的情况下“直接浏览”。
- 仅工具发现(MCP 工具枚举)就可能在真正开始工作前消耗数千个 token。
在最初发布时,我们有 9 个工具 — 基础爬虫、通过 Playwright(CDP)进行浏览器控制、浏览器会话管理、搜索引擎,以及 scrape_as_markdown 实用工具。随着时间推移,我们扩展到了60 个工具,覆盖:
- 电子商务
- 社交媒体
- 新闻
- 房地产
- 金融
- LinkedIn/人力资源
我们为这些特定工具使用了 Bright Data 的Web Scraper API,因此代理获得的是结构化的 JSON,而不是原始 Markdown。
2. 使用带给我们的启示
经过数月的真实流量考验,一个事实尤为突出:约 90% 的代理调用只使用了两个工具:
search\_engine
— returns SERP results.scrape\_as\_markdown
— fetches any URL as clean markdown.
其余工具在小众场景中有用,但它们的存在带来了高昂的成本。
3. 17K token 的握手问题
在 MCP 中,每次连接都从 /list/tools 开始。通过这种方式,客户端可以将有哪些工具、何时使用、以及能实现什么发送给 LLM。拥有 60 个工具时,仅这份列表就耗费约 17,000 个 token — 在任何实际查询开始之前。
对很多开发者而言,这样的 token 消耗已经足以让他们放弃通过 MCP 访问网页,而且 LLM 往往会困惑、不能正确选择工具。我们必须修复它。
4. 快速模式 vs 专业模式
我们将 MCP 服务器拆分为两种模式:
- 快速(默认)
- 仅包含 search_engine 和 scrape_as_markdown。
- 几乎为零的握手 token 成本。
- 覆盖大多数代理的搜索 + 抽取任务。
- 专业(可选)
- 全部 60 个工具,包括垂直领域的结构化爬虫。
- 适用于 token 成本物有所值的专门流程。
结果:启动更快、token 浪费最小,对只需获取数据的开发者而言也不再有意外的复杂性。
5. 为什么 scrape_as_markdown 与众不同
我们的 Markdown 抓取器:
- 适用于任何网站 — 即使有 CAPTCHA(自动解决)。
- 可稳定处理重度 JavaScript 网站。
- 返回干净、对 LLM 友好的内容。
其他 MCP 网页集成往往止步于“GET HTML”,而这在现代网页环境中经常失效。我们的设计能够在真实世界条件下可靠运行。
6. 架构概览
- 服务器:单一 MCP 端点。
- 快速模式:最小握手,仅 2 个高价值工具。
- 专业模式:完整的 60 个工具面。
7. 性能与可靠性
- Token 成本:17K → 在快速模式下接近于零。
- CAPTCHA 处理:在 scrape_as_markdown 中自动完成。
- 延迟:取决于目标站点;MCP 自身开销极小。
- 故障模式:多为站点特定;内置健壮的重试逻辑。
8. 开发者体验
使用 LangChain 快速开始
from langchain_mcp_adapters.client import MultiServerMCPClient
from langgraph.prebuilt import create_react_agent
client = MultiServerMCPClient({
"brightdata": {
"url": "https://mcp.brightdata.com/mcp?token=",
"transport": "streamable_http",
}
})
tools = await client.get_tools()
agent = create_react_agent("openai:gpt-4.1", tools)
weather_response = await agent.ainvoke({"messages": "what is the weather in nyc?"})
9. 免费套餐:没有借口
从今天开始:
- 每月 5,000 次请求(按月重置)。
- 包含快速模式(搜索 + 抓取)。
- 与付费档位拥有相同的 CAPTCHA 解决与站点访问能力。
- 升级到 Pro 以获得完整的结构化工具集。
如果你的代理未连接到实时网络,它已经过时 — 而在生产环境中,这是一种风险。几个月前训练的模型会自信地对时间敏感的问题给出错误答案。既然现在可以免费修复这一点,就没有不去做的理由。
10. 让我们意外的发现
- 使用集中:两个工具处理了大多数请求。
- Token 成本比延迟更影响采用。
- CAPTCHA 处理至关重要 — 没有它,太多页面会失败。
11. 路线图 (后续工作)
- 添加 Discovery 爬虫,以受限输出的方式探索网页。
- 更高效的批量抓取与结果过滤。
- 在 Pro 模式中提供更多垂直爬虫(包括 AI 爬虫!)。
- 改进工具描述,帮助代理更好地理解如何使用。
- 改进现有工具的响应结构。
免费注册,将你的代理连接到网络。看看当它能够使用实时、结构化的网页数据时,会发生什么变化。
支持支付宝等多种支付方式