借助 Bright Data 的 LLM 爬虫工具打造开源 AI 可见性追踪器

AI 模型正在回答那些你的客户过去会去 Google 搜索的问题。如果你的品牌不在这些答案里，你几乎就是“隐形”的，而且你很可能还不知道。我构建了一个免费的开源工具，专门用来追踪这件事。下面是我学到的东西，以及为什么 Bright Data 的抓取工具 API是唯一能让它以可用方式跑起来的基础设施。

快速总结：

GEO/AEO Tracker 是一个免费的开源 AI 可见性看板，可同时追踪 6 个 AI 模型。
它使用 Bright Data 的 LLM 爬虫工具去查询 ChatGPT、Gemini、Perplexity、Grok、Copilot 和 Google AI Mode。
Bright Data 通过统一的 API 调用模式，为每个模型返回结构化输出（引用、来源、答案文本）。
企业级付费工具通常收费 $200–$600/月并锁定你的数据；而这套方案单次查询成本低至几分之一美分，且所有数据都留在本地。
SRO Pipeline 在一个端到端工作流中同时使用 Bright Data 的 SERP API、Web Unlocker 和 LLM 爬虫工具。
所有数据都保留在你自己的环境中：无供应商锁定、无外部数据库。

还没有人彻底解决的 GEO 问题

截至 2026 年初，ChatGPT 的周活跃用户已超过 9 亿。Google AI Overviews 现在出现在约 16% 的搜索中。而来自 AI 搜索引擎的流量，其转化率比传统自然流量高 23 倍。Ahrefs 用自家数据确认：来自 AI 来源的 0.5% 流量，带来了 12.1% 的全部注册量。

麦肯锡预测，到 2028 年，美国将有 7500 亿美元收入会通过 AI 驱动的搜索流转。这不是关于未来某种形态的预测——它已经在发生：每一次有人问 ChatGPT“我该用哪个 CRM？”或问 Perplexity“哪家做项目管理软件最好？”

你无法优化你无法衡量的东西。而 AI 可见性的衡量，要么太贵，要么太受限，或者两者兼有。

我做了什么：60 秒了解 GEO/AEO Tracker

GEO/AEO Tracker 是一个开源、local-first（本地优先）的 AI 可见性情报看板。你现在就可以试用在线演示，无需 API key。

它会并行、同步地追踪你的品牌在 ChatGPT、Perplexity、Gemini、Grok、Google AI Mode 和 Microsoft Copilot 上的表现，并把所有数据通过 IndexedDB 存在你的浏览器本地。无需外部数据库，无供应商锁定。

13 个功能、6 个 AI 模型、零供应商锁定

我做这个工具，是因为我反复遇到同一个问题：我评估过的每个工具要么太贵、要么把我锁进他们的生态、要么覆盖的模型不够多。所以我就做了一个我自己真正想用的工具。

对真实世界品牌追踪最关键的功能包括：

Prompt Hub 可让任意提示词一次性在全部 6 个模型上运行。对需要追踪竞品关键词的产品市场团队来说，这相当于把“做 6 次独立实验”变成“做 1 次实验”。你可以管理完整的提示词库，使用 {brand} 注入做动态替换，并并行触发批量运行。

Visibility Analytics 会基于品牌提及率、回答中的位置、引用频率与情感趋势，给出 0–100 的分数。这是 CMO 不用 20 页 PPT 解释也能向上汇报的 KPI，并且支持导出 CSV。

Citation Opportunities 是我最自豪的功能。它会显示：在你未出现的场景里，竞争对手分别因哪些 URL 被引用。这是一条直接的内容缺口与外链建设情报流，而且是自动交付。

SRO Analysis（下文详述）是一个 6 阶段流水线，用 0–100 评分衡量某个页面对 AI 搜索结果的优化程度，并给出按优先级排序、可执行的建议。它在一个工作流里使用了多个 Bright Data 产品。

Drift Alerts 会在你的可见性分数显著变化时自动触发提醒。AI 答案中的品牌口碑变化可能会快速累积扩大；“几天内知道”与“在月度复盘才知道”差别巨大。

为什么 Bright Data 是唯一可行的底座

这是很多人写构建故事时会跳过的部分，但它恰恰是这个工具能以生产质量运行、而不是每周都坏一次的核心原因。

没人愿意聊的抓取挑战

ChatGPT、Perplexity、Gemini、Grok、Google AI Mode 和 Copilot 都具备以下特点：

完全由 JavaScript 渲染。用普通 HTTP 请求拿不到任何有用内容。
强力反爬虫拦截。它们会识别自动化流量模式并拒绝。最常见的反抓取技术（包括浏览器指纹、CAPTCHA 挑战与行为分析）会在这些平台上同时启用。
结构彼此不同。每个平台返回的数据格式不同。Perplexity 使用带内联来源的 markdown；Gemini 把引用作为单独的结构化数组返回；Grok 同时有 response_raw 与 answer_text_markdown 字段。
受地理位置影响。同一个提示词可能因为请求看起来来自不同国家，而返回不同答案与不同引用。

如果从零开始为这六个平台构建并维护爬虫工具，你需要：住宅代理基础设施、CAPTCHA 处理、会话管理、跨模型响应归一化、异步响应轮询，以及每次平台结构更新后的持续维护。这是数月级的工程投入——而那时你甚至还没写任何追踪逻辑。

Bright Data 把这一切压缩为：每个模型一次 API 调用。

六个爬虫工具，一个 API key：代码层面如何工作

brightdata-scraper.ts 中的核心集成在全部六个提供商上都遵循同一个简单、可复用的模式：

// Step 1: POST to the Bright Data dataset endpoint
const scrapeResponse = await fetch(
  `https://api.brightdata.com/datasets/v3/scrape?dataset_id=${datasetId}&format=json`,
  {
    method: "POST",
    headers: { Authorization: `Bearer ${BRIGHT_DATA_KEY}`, "Content-Type": "application/json" },
    body: JSON.stringify({
      input: [{ url: providerBaseUrl[provider], prompt: request.prompt, index: 1 }]
    }),
  }
);

// Step 2: Handle async response — poll for snapshot readiness
if (scrapeResponse.status === 202) {
  const { snapshot_id } = await scrapeResponse.json();
  await monitorUntilReady(snapshot_id); // polls /progress/{id} every 2 seconds
  payload = await downloadSnapshot(snapshot_id); // GET /snapshot/{id}?format=json
}

// Step 3: Normalize the result
const answer = normalizeAnswer(record); // handles all 6 model formats
const sources = extractSourcesFromAnswer(answer); // merges text + structured citations

每个模型都用同一种模式。唯一变化的是 dataset_id：每个提供商对应一个环境变量，例如 BRIGHT_DATA_DATASET_CHATGPT、BRIGHT_DATA_DATASET_PERPLEXITY 等。

这就是架构：一套集成模式，六个模型，每次都输出一致的结构化结果。

结构化输出实际长什么样

每个 Bright Data 爬虫工具都会返回模型特定字段。normalizeAnswer() 负责处理跨模型格式差异，让应用的其他部分看到统一接口：

模型	返回的关键字段
ChatGPT	`answer_text`, `links_attached`, `citations`, `recommendations`, `country`
Perplexity	`answer_text_markdown`, `sources`, `source_html`, `is_shopping_data`
Gemini	`answer_text`, `citations`, `links_attached`, `index`, `country`
Grok	`answer_text`, `answer_text_markdown`, `citations`, `response_raw`
Google AI Mode	`answer_text`, `citations`, `links_attached`, `index`, `country`
Copilot	`answer_text_markdown`, `sources`, `answer_section_html`, `index`

归一化层会先检查 answer_text，再回退到 answer_text_markdown，再到 response_raw，最后对原始 record 做深度递归提取。Bright Data 负责平台特定复杂度；应用负责跨平台归一化。职责清晰分离。

SRO Pipeline：在一个功能里展示 Bright Data 的全栈能力

SRO Analysis 是追踪器中技术实现最复杂的功能，同时也是最清晰展示 Bright Data 基础设施如何在规模化场景下发挥作用的例子。

核心思路：对某个页面的 AI 搜索优化程度打分（0–100），并给出明确建议。支撑该分数的 6 阶段流水线如下：

阶段 1：Gemini Grounding。使用 Google Gemini API 理解 AI 系统如何感知该页面，包括其主题、权威信号与内容结构。

阶段 2：跨平台引用。通过 scrapeAllPlatforms() 并行调用全部 6 个 Bright Data LLM 爬虫工具，检查在 ChatGPT、Perplexity、Gemini、Grok、Google AI Mode、Copilot 上查询相关关键词时，目标 URL 或域名是否被引用。

阶段 3：SERP 分析。使用 Bright Data 的 SERP API 拉取该关键词的自然排名数据。如果页面在自然搜索中排名第 1，但在任何 AI 答案中都未被引用，这就是值得暴露的 GEO 缺口。

阶段 4：页面抓取。使用 Bright Data 的 Web Unlocker 获取真实页面内容并分析其结构、深度、开头段落 BLUF 密度、标题层级、schema 标记。无付费墙、无反爬虫拦截。

阶段 5：站点上下文。再次使用 Bright Data 的 Web Unlocker 获取首页，并提取 AI 系统在决定是否引用来源时会使用的品牌权威信号。

阶段 6：LLM 分析。将上述所有信息综合为最终 SRO 分数与优先级建议清单：先修什么、有哪些内容缺口、竞争对手在哪些维度更容易被 AI 引用。

一个功能，集成 6 个 Bright Data 产品。结果是一个审计工作流——企业团队从零构建通常要耗费数月，这正是关键点。

企业用例：公司实际上怎么用它

追踪器是开源的，但它所依赖的基础设施（Bright Data 的 LLM 爬虫工具 API）才能扩展到真正的企业级工作负载。实际使用场景通常是这样的。

规模化品牌口碑监测

一家中型 SaaS 公司的 CMO 需要知道：当用户问 ChatGPT“我该信任哪个【品类】？”时，它怎么回答？答案是否准确？情绪是否正向？是否提到品牌？

没有追踪工具，你往往要三个月后才会从潜在客户口中得知：他们问了 AI，而 AI 推荐了竞争对手。有了追踪器，你可以每周批量跑一组与口碑相关的提示词；当情绪发生漂移时，漂移告警会触发；Citation Opportunities 会明确告诉你该生产什么内容、或该获取哪些外链来改变 AI 的答案。想更深入的团队，可以参考使用 Bright Data SDK 构建自动化品牌口碑监测工作流的详细指南：搭建自动化品牌口碑监测工作流。

销售团队的竞品情报

销售赋能与产品市场团队会遇到一个具体问题：竞争对手出现在本该属于自己的 AI 答案里。他们不知道是哪些查询、哪些模型、为什么会这样、以及该怎么做。

Competitor Battlecards 标签页会生成你的品牌与任意竞争对手的 AI 并排对比。引用缺口分析会精确指出：竞争对手因哪些 URL 被引用而你没有。过去这类情报往往是咨询机构以 $50k/年收费才能提供的。

多品牌/代理机构团队的 GEO 策略

一家管理 12 个品牌的代理机构无法承担每个品牌每月 $500 的 AI 可见性追踪费用，这个账很快就算不下去。

追踪器支持多工作区（multi-workspace）和 BYOK（Bring Your Own Key，自带 Key）模式，你只需为 Bright Data API 用量付费。按 $1.50/1K records 的按量计费，针对 10 个提示词、6 个模型做一次完整的每周追踪批处理，每个品牌的成本只要几角钱甚至更低。追踪 10 个品牌的成本，比买一个 SaaS 账号还便宜。

面向 SEO 客户的技术型 GEO 审计

当 SEO 客户问“我们是否做了 GEO 优化？”没有工具时，诚实答案通常很模糊。SRO Analysis 改变了这一点：它为每个页面给出 0–100 分，并提供清晰的优先级栈——修复 schema 标记、提高首段 BLUF 密度、从这三个域名争取引用。它让审计从“AI 优化很重要”变成“这周做这五件事”。如果你想看看这种多智能体 GEO 优化工作流如何端到端构建，使用 CrewAI 的 GEO 与 SEO 内容优化指南会详细讲解。

数据主权要求

企业采购与法务团队有一个合理担忧：他们不能把品牌追踪数据发送到第三方 SaaS 供应商的服务器。这会阻断几乎所有企业级 GEO 工具的落地。

追踪器的 local-first 架构（IndexedDB + localStorage）意味着：Bright Data 通过 API 提供结构化数据，而企业自行决定数据去向。Bright Data 本身符合 SOC 2 Type II、ISO 27001、GDPR 与 CCPA，因此能够通过企业安全评审。数据流也很干净：结构化响应进来，存到本地，没有中间方。

如果你也想做类似的东西，这意味着什么

追踪器只是 Bright Data LLM 爬虫工具 API 的一种应用。它所依赖的基础设施本质上是通用的。

如果你在构建 AI 监控看板、品牌情报工具、竞品研究产品，或任何需要规模化查询 AI 模型并获取结构化数据的应用，底层积木都是一样的。关于这些用例可用能力的背景信息，SERP 与网页搜索 API 对比对行业格局覆盖得很全面。Bright Data 在 195 个国家拥有 1.5 亿+住宅 IP 的网络，让 AI 平台看到的是真实用户流量；99.99% 的可用性保证你的自动化流水线不会在周二早上悄悄失败；最高可处理 5,000 个 URL 的批量请求，让你可以一次操作就完成企业级批处理追踪；支持将输出交付到 S3、GCS、Snowflake、Azure 与 SFTP，数据可直接落到你现有的技术栈里。

如果你还在考虑最佳 AI 智能体框架，以便把这些爬虫工具编排成完整的自主流水线，这就是一个自然的下一步。主流框架都能与 Bright Data 直接集成。

问题不在于要不要追踪 AI 可见性，而在于你能多快把基础设施搭起来，并对发现的问题采取行动。

开始使用 Bright Data 的 LLM 爬虫工具

如果你想运行自己的 GEO/AEO Tracker 实例，克隆仓库并添加 Bright Data API key 即可。不到 10 分钟就能跑起来：

git clone https://github.com/danishashko/geo-aeo-tracker.git
cd geo-aeo-tracker && npm install
# Add BRIGHT_DATA_KEY + 6 dataset IDs to .env
npm run dev

6 个 Bright Data 抓取工具 dataset ID（对应 ChatGPT 抓取工具 API、Perplexity 抓取工具、Gemini 抓取工具、Grok 抓取工具、Google AI Mode 抓取工具，以及 Copilot 抓取工具）在你注册 Bright Data 账号后，可直接在 Bright Data 抓取工具 Marketplace 中获取。

如果你想以企业规模构建自定义方案，LLM 爬虫工具就是基础设施层。两条路径的起点都一样：Bright Data 免费试用。

在 GitHub 查看开源仓库

联系销售开始免费试用