AI

通过 Bright Data 将 Dataiku AI 代理连接到 Web

使用 Bright Data 的 Web MCP 将你的 Dataiku AI 代理连接到 Web,以实现大规模抓取、搜索和发现。
3 分钟阅读
通过 Bright Data 将 Dataiku AI 代理连接到 Web

在本教程中,你将学习:

  • Dataiku 是什么,以及它为企业中的 AI 代理开发带来了什么。
  • AI 代理的主要限制是什么,以及如何使用 Web 访问工具来克服这些限制。
  • 如何将 Dataiku AI 代理连接到 Bright Data Web MCP,以实现网页抓取、搜索、发现、自动化等。

让我们开始吧!

Dataiku 如何支持 AI 代理

Dataiku 是一个集中式、协作式平台,帮助组织将原始数据转化为可执行洞察、预测模型和 GenAI 应用。它提供了一个端到端环境,使数据团队和业务用户能够在分析和 AI 项目上协同工作。

Dataiku 中的 AI 代理

Dataiku 支持 AI 代理,通过提供一个完整环境来安全地大规模构建、部署和管理代理。这提供了将代理连接到数据、模型和外部系统所需的工具、治理和集成。它确保代理能够在企业工作流中可靠运行,同时保持可控且可审计。

Dataiku 平台为 AI 代理提供的主要能力包括:

  • 灵活的代理构建:面向非技术用户和高级开发者的可视化与基于代码的代理创建。
  • 内置工具支持:与第三方服务集成,用于查询数据集、连接 AI 模型以及调用 Web 服务。
  • LLM Mesh:集中式抽象层,用于管理并在 OpenAI、Anthropic 和 Mistral 等提供商之间路由 LLM 使用。
  • 企业级治理:基于角色的访问控制、审计、可追溯性、测试和性能监控,以确保安全的生产使用。

为什么要用 Web 抓取、发现、搜索和交互工具扩展 Dataiku AI 代理

Dataiku AI 代理与所有由 LLM 驱动的系统一样,受制于一个根本限制:信息停滞……

大型语言模型基于反映过去而非现在的训练数据生成输出。因此,在快速变化的企业环境中使用时,它们可能会产生过时的建议、幻觉事实或不完整的洞察。

在实践中,这会成为 Dataiku 工作流的严重瓶颈。一个无法访问新鲜数据的 AI 代理可能依赖已弃用的最佳实践,错过 API 或平台的最新更新,或无法纳入新近可用的数据集和业务信号。这会降低可靠性,并限制企业流水线中 AI 驱动自动化的价值。

为克服这一限制,Dataiku 代理可以原生连接到实时 Web 数据基础设施。这正是 Bright Data 成为关键增强点的地方。

Bright Data 的 Web MCP

Bright Data Web MCP 为 Dataiku AI 代理提供实时 Web 搜索、数据发现、结构化提取以及自动化浏览器交互能力。它使代理能够使用当前、可验证的信息运行,而不是仅依赖静态知识。

Web MCP 暴露了 70+ 个工具,用于与Bright Data 基于 API 的产品和服务交互。即使在 Rapid 模式(免费层级)下,它也包含一些有用的工具,例如:

工具 描述
search_engine + 用于并行使用的批处理版本 以结构化 JSON 或 Markdown 获取 Google、Bing 或 Yandex 结果
scrape_as_markdown + 用于并行使用的批处理版本 在处理反爬虫保护绕过的同时,将任意网页转换为干净的 Markdown
discover AI 驱动的搜索,返回排序后的相关 Web 结果

然后,[Pro 模式](https://github.com/bright-cn/brightdata-mcp?tab=readme-ov-file#-pricing, modes) 解锁了从 Yahoo Finance、Amazon、LinkedIn、YouTube、Zillow、Google Maps 以及其他 40+ 平台进行结构化数据提取的高级能力。此外,它还提供用于完整 Web 浏览器自动化的工具。

重要:Web MCP 工具构建在 Bright Data 的大规模基础设施之上,由覆盖 195+ 个国家/地区、超过 4 亿 IP 的全球住宅代理网络提供支持。这确保了高可靠性、可扩展性以及对 Web 资源的一致访问,即使在企业级负载水平下也是如此。

如何通过 Bright Data Web MCP 为 Dataiku 代理提供 Web 访问

在这份分步指南中,你将被引导完成在 Dataiku 代理中配置 Bright Data Web MCP 的过程。这样,它们将获得探索 Web 的能力,并将其响应基于真实世界、当前且可验证的信息进行事实落地。

请按照以下说明操作!

先决条件

要跟随本教程的这一部分,请确保你具备:

注意:请遵循官方指南来设置你的 Bright Data API key

步骤 #1:创建你的 Dataiku Space

在首次登录 Dataiku Cloud后,系统会提示你创建你的第一个Dataiku space

为你的 space 输入名称,选择一个区域,然后点击 “CREATE MY SPACE” 按钮:

创建 Dataiku space

你可以将 space 视为一个隔离的 Dataiku 环境,拥有自己的配置。每个 space 运行 Dataiku 平台的特定版本。由于 Dataiku 会定期发布更新,space 会周期性升级,以提供对最新功能和改进的访问。

创建 space 后,你将进入 Dataiku space 控制面板:

Dataiku space 控制面板

太好了!你的 Dataiku Cloud 账户和 space 现在已准备就绪,可以使用了。

步骤 #2:配置 LLM 集成

你的 Dataiku 代理需要访问一个 LLM 才能工作。在本节中,我们将连接一个 OpenAI 账户,但对其他受支持提供商的流程也类似。

首先打开 “Connections” 页面。然后点击 “ADD A CONNECTION”:

在 “Connections” 页面点击 “ADD A CONNECTION” 按钮

你将被重定向到 “DSS Settings” 页面:

“DSS Settings” 页面

在这里,点击 “NEW CONNECTION” 下拉菜单,搜索 “openai” 字符串,并选择对应选项:

选择 “OpenAI” 选项

为连接输入一个名称(例如 “OpenAI”)并粘贴你的 OpenAI API key。点击 “TEST” 验证连接是否正常工作,然后选择 “CREATE” 添加它:

配置 OpenAI 集成

创建后,OpenAI 连接将出现在 “Connections” 页面上:

注意 “OpenAI” 连接

你的 Dataiku 账户现在可以访问 OpenAI LLM 模型了。你已准备好构建由外部模型驱动的 AI 代理。很酷!

步骤 #3:为 Bright Data Web MCP 远程连接做准备

在创建你的代理之前,你需要配置到 Bright Data Web MCP 服务器的连接。

与本地 AI 代理解决方案不同,Dataiku 运行在云端。这意味着你必须连接到 Bright Data Web MCP 服务器的远程版本。换句话说,你无法在本地安装 Web MCP 服务器并从 Dataiku 连接到它。

注意:Bright Data Web MCP 远程服务器已具备企业级就绪能力。它支持无限连接和高可扩展性,就像所有其他 Bright Data 产品一样。

要开始,请先熟悉 Bright Data Web MCP 远程连接 URL 格式

https://mcp.brightdata.com/mcp?token=<YOUR_BRIGHT_DATA_API_KEY>&pro=1

请记住,&pro=1 参数是可选的:

  • 不带 &pro=1:你只能访问 Rapid 模式中的免费工具(每月 5,000 次请求)。
  • &pro=1:你将获得对 70+ 工具全套以及高级能力的访问权限,但会产生使用费用。

如果你想要更精细的控制,例如仅启用特定工具或工具组,你可以直接从 Bright Data 控制面板生成一个自定义的远程 MCP URL。

登录你的 Bright Data 账户 并导航到 “AI Gateways > MCP” 页面。按照设置向导配置你的 MCP 服务器访问。在流程结束时,你将获得如下所示的自定义连接 URL:

注意已配置的 Web MCP 连接 URL

复制 “Streamable HTTP” 连接 URL,因为你很快将需要它来在你的 Dataiku space 中配置 Bright Data Web MCP 连接。太好了!

步骤 #4:将 Dataiku 连接到 Bright Data Web MCP

现在你已经有了 Bright Data Web MCP 连接 URL,下一步是在你的 Dataiku space 中创建一个 MCP 连接。

和之前一样,打开 “NEW CONNECTION” 下拉菜单。这次,搜索 “mcp” 并选择 “Remote MCP” 选项:

选择 “Remote MCP” 选项

为你的 MCP 连接命名(例如 bright-data-web-mcp),并粘贴你之前获得的远程 Web MCP 连接 URL:

配置到 Bright Data Web MCP 的连接

点击 “TEST” 验证连接是否正常工作,然后选择 “CREATE” 添加它。创建后,MCP 连接将出现在 “DSS Settings” 页面中:

注意 “bright-data-web-mcp” 连接

太棒了!你的 Dataiku space 现在可以连接到 Bright Data Web MCP 服务器,为你未来的 AI 代理提供实时 Web 能力访问。

步骤 #5:创建你的 Dataiku AI 代理

返回 Dataiku “Overview” 页面,在 “Dataiku Solutions” 卡片上点击 “MANAGE”:

在 “Dataiku Solutions” 卡片上点击 “MANAGE” 按钮

这将带你进入项目管理页面。点击 “NEW PROJECT” 下拉菜单并选择 “Blank project” 选项:

选择 “Blank project” 选项

为你的 Dataiku 项目命名,例如 “Web Access”,然后点击 “CREATE”:

创建新的 Dataiku 项目

进入项目后,点击 “GenAI” 图标并选择 “Agents & GenAI Models”:

选择 “Agents & GenAI Models” 选项

在这里,点击 “CREATE YOUR FIRST AGENT” 开始:

点击 “CREATE YOUR FIRST AGENT” 按钮

选择你偏好的代理类型(在本示例中,我们将使用 “Simple Visual Agent”)并点击 “CREATE”:

通过 “Simple Visual Agent” 选项创建新的 Dataiku 代理

你现在将进入 AI 代理配置页面:

Dataiku AI 代理配置页面

完美!你已准备好为 AI 代理配备 Bright Data Web MCP 工具。

步骤 #7:创建 Web MCP 代理工具

在继续进行 AI 代理配置之前,你需要将之前创建的 Remote MCP 连接转换为 AI 代理工具

首先,从 “GenAI” 图标打开 “Agent Tools” 页面:

选择 “Agent Tools” 选项

在 “Agent Tools” 页面上,点击 “NEW AGENT TOOL”:

点击 “NEW AGENT TOOL” 按钮

选择 “MCP” 选项并点击 “CREATE”:

选择 “MCP” 选项

接下来,通过选择你之前创建的 “bright-data-web-mcp” 连接来配置 Remote MCP 服务器。然后点击 “CREATE”:

配置 Remote MCP 服务器

你现在将进入 MCP AI 代理工具配置页面。在这里,你可以测试工具并为 MCP 工具集定义一个通用描述。选择所有可用工具并启用它们:

启用所有 Web MCP 工具

如果你在 Pro 模式下配置了服务器,你将看到完整的 70+ Web MCP 工具集:

注意所有 Web MCP 工具

否则,你将只能看到 Rapid(免费)模式下可用的工具。

点击右上角的 “SAVE”。Bright Data Web MCP 工具现在已可供你的 Dataiku 代理使用。做得好!

步骤 #8:为 Web 访问配置你的 Dataiku 代理

你现在拥有完成由 Bright Data 驱动、用于 Web 相关任务的 AI 代理所需的所有构建模块。

返回 “Simple Visual Agent” 页面。在 “LLM” 下拉菜单中,你将看到来自你之前创建连接的 OpenAI 模型。在本示例中,我们将使用 “GPT-5.4 mini” 模型:

配置 “GPT-5.4 mini” 模型

接下来,你需要提供清晰的指令来定义代理应如何表现。在 “Instructions“ 字段中,粘贴如下提示词:

You are a general-purpose assistant with access to the web. Use the Bright Data Web MCP tools whenever you are asked to perform web-related tasks, such as:
- Searching the web
- Fetching, reading, or scraping web pages
- Extracting structured data from supported platforms
- Running browser automation or web automation workflows
- Conducting research, investigations, fact-checking, or news lookups
- Any other task involving URLs, links, or web content

现在点击 “ADD TOOL” 并选择 “MCP” 选项(对应你之前配置的 Web MCP 工具集):

注意 “MCP” 工具选项

你最终启用 Web 的 Dataiku AI 代理应如下所示:

通过 Bright Data Web MCP 进行 Web 访问的 Dataiku AI 代理

任务完成。你已成功创建了一个通过 MCP 与 Bright Data 集成、用于 Web 相关任务的 Dataiku AI 代理。唯一剩下的步骤就是测试它!

步骤 #9:测试代理

要验证你的 AI 代理是否正常工作,请用一个 Web 相关任务运行它。例如,写一个如下提示词:

Access the Best Buy “Top 100 Deals” page and retrieve the top three products listed there.

For each product, extract structured data. Then use this information to produce a detailed report comparing the three products over product name, description, price, rating if available, and key features or specifications.

Finally, conclude with a short analysis of the retailer’s current marketing intent based on the selected products, such as discount strategy, promoted categories, positioning, and what this suggests about demand.

请注意,这是标准 LLM 无法单独完成的事情,因为它需要 Web 搜索和抓取能力。

执行该提示词,将会发生如下情况:

提示词执行

聚焦于 Best Buy 产品对比表:

Best Buy 产品对比表

请注意,该报告包含对 Best Buy “Top 100 Deals of the Season” 页面中前三个产品的详细分析,你可以通过在浏览器中打开同一页面直接查看:

特别是,通过检查代理日志,你会看到它:

  1. 调用了 search_engine Web MCP 工具(由 搜索引擎 API 支持)来在 Google 中搜索 Best Buy Top 100 Deals 页面。
  2. 获取了结构化的 SERP 数据并对其进行分析,以识别正确的目标 URL。
  3. 通过 scrape_as_markdown 工具访问该页面(由 网络解锁器 API 支持),该工具返回页面的 Markdown 版本。
  4. 通过分析 Markdown 内容检测到前三个 Best Buy 产品 URL。
  5. 使用 web_data_bestbuy_products Web MCP Pro 工具抓取每个产品(该工具连接到 Bright Data 的 Best Buy 爬虫工具)。
  6. 将所有检索到的信息汇总到最终报告中。

这确认了 Bright Data Web MCP 工具正在用于将 AI 代理基于真实世界的 Web 数据进行事实落地。

Et voilà!AI 代理中的 Dataiku + Bright Data 集成运行得非常顺畅。请记住,这只是一个示例。得益于 Bright Data 集成,该代理可以处理许多其他用例和场景!

下一步

对于一个真实世界、企业级就绪的 Dataiku Cloud AI 代理,考虑添加 额外的第三方连接,例如 Slack、Google Drive 和其他协作工具。此外,考虑将 数据连接 与你的数据库集成。

这使得生成的结果能够在你组织的工作流和系统中自动共享。你也可以考虑部署你的代理,以便在生产环境中使用它。

结论

在本文中,你了解了如何构建 Dataiku AI 代理,并使用 Bright Data Web MCP 将其扩展为可访问真实世界 Web 的能力。特别是,你看到了如何以及为何将 Dataiku 代理与 Web MCP 工具集成,以便将其输出基于实时、可验证的 Web 数据进行事实落地。

此集成将 Dataiku 代理提升到一个新水平。它使它们能够搜索 Web、自主发现新来源、提取结构化数据,并实时与真实世界网站交互。

立即免费注册 Bright Data 并开始集成 AI 就绪的 Web 工具!

支持支付宝等多种支付方式

Antonello Zanini

技术写作

5.5 years experience

Antonello是一名软件工程师,但他更喜欢称自己为技术传教士。通过写作传播知识是他的使命。

Expertise
Web 开发 网页抓取 AI 集成