AI 模型正在回答那些你的客户过去会去 Google 搜索的问题。如果你的品牌不在这些答案里,你几乎就是“隐形”的,而且你很可能还不知道。我构建了一个免费的开源工具,专门用来追踪这件事。下面是我学到的东西,以及为什么 Bright Data 的抓取工具 API是唯一能让它以可用方式跑起来的基础设施。
快速总结:
- GEO/AEO Tracker 是一个免费的开源 AI 可见性看板,可同时追踪 6 个 AI 模型。
- 它使用 Bright Data 的 LLM 爬虫工具去查询 ChatGPT、Gemini、Perplexity、Grok、Copilot 和 Google AI Mode。
- Bright Data 通过统一的 API 调用模式,为每个模型返回结构化输出(引用、来源、答案文本)。
- 企业级付费工具通常收费 $200–$600/月并锁定你的数据;而这套方案单次查询成本低至几分之一美分,且所有数据都留在本地。
- SRO Pipeline 在一个端到端工作流中同时使用 Bright Data 的 SERP API、Web Unlocker 和 LLM 爬虫工具。
- 所有数据都保留在你自己的环境中:无供应商锁定、无外部数据库。
还没有人彻底解决的 GEO 问题
截至 2026 年初,ChatGPT 的周活跃用户已超过 9 亿。Google AI Overviews 现在出现在约 16% 的搜索中。而来自 AI 搜索引擎的流量,其转化率比传统自然流量高 23 倍。Ahrefs 用自家数据确认:来自 AI 来源的 0.5% 流量,带来了 12.1% 的全部注册量。
麦肯锡预测,到 2028 年,美国将有 7500 亿美元收入会通过 AI 驱动的搜索流转。这不是关于未来某种形态的预测——它已经在发生:每一次有人问 ChatGPT“我该用哪个 CRM?”或问 Perplexity“哪家做项目管理软件最好?”
你无法优化你无法衡量的东西。而 AI 可见性的衡量,要么太贵,要么太受限,或者两者兼有。
我做了什么:60 秒了解 GEO/AEO Tracker
GEO/AEO Tracker 是一个开源、local-first(本地优先)的 AI 可见性情报看板。你现在就可以试用在线演示,无需 API key。
它会并行、同步地追踪你的品牌在 ChatGPT、Perplexity、Gemini、Grok、Google AI Mode 和 Microsoft Copilot 上的表现,并把所有数据通过 IndexedDB 存在你的浏览器本地。无需外部数据库,无供应商锁定。
13 个功能、6 个 AI 模型、零供应商锁定
我做这个工具,是因为我反复遇到同一个问题:我评估过的每个工具要么太贵、要么把我锁进他们的生态、要么覆盖的模型不够多。所以我就做了一个我自己真正想用的工具。
对真实世界品牌追踪最关键的功能包括:
Prompt Hub 可让任意提示词一次性在全部 6 个模型上运行。对需要追踪竞品关键词的产品市场团队来说,这相当于把“做 6 次独立实验”变成“做 1 次实验”。你可以管理完整的提示词库,使用 {brand} 注入做动态替换,并并行触发批量运行。
Visibility Analytics 会基于品牌提及率、回答中的位置、引用频率与情感趋势,给出 0–100 的分数。这是 CMO 不用 20 页 PPT 解释也能向上汇报的 KPI,并且支持导出 CSV。
Citation Opportunities 是我最自豪的功能。它会显示:在你未出现的场景里,竞争对手分别因哪些 URL 被引用。这是一条直接的内容缺口与外链建设情报流,而且是自动交付。
SRO Analysis(下文详述)是一个 6 阶段流水线,用 0–100 评分衡量某个页面对 AI 搜索结果的优化程度,并给出按优先级排序、可执行的建议。它在一个工作流里使用了多个 Bright Data 产品。
Drift Alerts 会在你的可见性分数显著变化时自动触发提醒。AI 答案中的品牌口碑变化可能会快速累积扩大;“几天内知道”与“在月度复盘才知道”差别巨大。
为什么 Bright Data 是唯一可行的底座
这是很多人写构建故事时会跳过的部分,但它恰恰是这个工具能以生产质量运行、而不是每周都坏一次的核心原因。
没人愿意聊的抓取挑战
ChatGPT、Perplexity、Gemini、Grok、Google AI Mode 和 Copilot 都具备以下特点:
- 完全由 JavaScript 渲染。用普通 HTTP 请求拿不到任何有用内容。
- 强力反爬虫拦截。它们会识别自动化流量模式并拒绝。最常见的反抓取技术(包括浏览器指纹、CAPTCHA 挑战与行为分析)会在这些平台上同时启用。
- 结构彼此不同。每个平台返回的数据格式不同。Perplexity 使用带内联来源的 markdown;Gemini 把引用作为单独的结构化数组返回;Grok 同时有
response_raw与answer_text_markdown字段。 - 受地理位置影响。同一个提示词可能因为请求看起来来自不同国家,而返回不同答案与不同引用。
如果从零开始为这六个平台构建并维护爬虫工具,你需要:住宅代理基础设施、CAPTCHA 处理、会话管理、跨模型响应归一化、异步响应轮询,以及每次平台结构更新后的持续维护。这是数月级的工程投入——而那时你甚至还没写任何追踪逻辑。
Bright Data 把这一切压缩为:每个模型一次 API 调用。
六个爬虫工具,一个 API key:代码层面如何工作
brightdata-scraper.ts 中的核心集成在全部六个提供商上都遵循同一个简单、可复用的模式:
// Step 1: POST to the Bright Data dataset endpoint
const scrapeResponse = await fetch(
`https://api.brightdata.com/datasets/v3/scrape?dataset_id=${datasetId}&format=json`,
{
method: "POST",
headers: { Authorization: `Bearer ${BRIGHT_DATA_KEY}`, "Content-Type": "application/json" },
body: JSON.stringify({
input: [{ url: providerBaseUrl[provider], prompt: request.prompt, index: 1 }]
}),
}
);
// Step 2: Handle async response — poll for snapshot readiness
if (scrapeResponse.status === 202) {
const { snapshot_id } = await scrapeResponse.json();
await monitorUntilReady(snapshot_id); // polls /progress/{id} every 2 seconds
payload = await downloadSnapshot(snapshot_id); // GET /snapshot/{id}?format=json
}
// Step 3: Normalize the result
const answer = normalizeAnswer(record); // handles all 6 model formats
const sources = extractSourcesFromAnswer(answer); // merges text + structured citations
每个模型都用同一种模式。唯一变化的是 dataset_id:每个提供商对应一个环境变量,例如 BRIGHT_DATA_DATASET_CHATGPT、BRIGHT_DATA_DATASET_PERPLEXITY 等。
这就是架构:一套集成模式,六个模型,每次都输出一致的结构化结果。
结构化输出实际长什么样
每个 Bright Data 爬虫工具都会返回模型特定字段。normalizeAnswer() 负责处理跨模型格式差异,让应用的其他部分看到统一接口:
| 模型 | 返回的关键字段 |
|---|---|
| ChatGPT | answer_text, links_attached, citations, recommendations, country |
| Perplexity | answer_text_markdown, sources, source_html, is_shopping_data |
| Gemini | answer_text, citations, links_attached, index, country |
| Grok | answer_text, answer_text_markdown, citations, response_raw |
| Google AI Mode | answer_text, citations, links_attached, index, country |
| Copilot | answer_text_markdown, sources, answer_section_html, index |
归一化层会先检查 answer_text,再回退到 answer_text_markdown,再到 response_raw,最后对原始 record 做深度递归提取。Bright Data 负责平台特定复杂度;应用负责跨平台归一化。职责清晰分离。
SRO Pipeline:在一个功能里展示 Bright Data 的全栈能力
SRO Analysis 是追踪器中技术实现最复杂的功能,同时也是最清晰展示 Bright Data 基础设施如何在规模化场景下发挥作用的例子。
核心思路:对某个页面的 AI 搜索优化程度打分(0–100),并给出明确建议。支撑该分数的 6 阶段流水线如下:
阶段 1:Gemini Grounding。使用 Google Gemini API 理解 AI 系统如何感知该页面,包括其主题、权威信号与内容结构。
阶段 2:跨平台引用。通过 scrapeAllPlatforms() 并行调用全部 6 个 Bright Data LLM 爬虫工具,检查在 ChatGPT、Perplexity、Gemini、Grok、Google AI Mode、Copilot 上查询相关关键词时,目标 URL 或域名是否被引用。
阶段 3:SERP 分析。使用 Bright Data 的 SERP API 拉取该关键词的自然排名数据。如果页面在自然搜索中排名第 1,但在任何 AI 答案中都未被引用,这就是值得暴露的 GEO 缺口。
阶段 4:页面抓取。使用 Bright Data 的 Web Unlocker 获取真实页面内容并分析其结构、深度、开头段落 BLUF 密度、标题层级、schema 标记。无付费墙、无反爬虫拦截。
阶段 5:站点上下文。再次使用 Bright Data 的 Web Unlocker 获取首页,并提取 AI 系统在决定是否引用来源时会使用的品牌权威信号。
阶段 6:LLM 分析。将上述所有信息综合为最终 SRO 分数与优先级建议清单:先修什么、有哪些内容缺口、竞争对手在哪些维度更容易被 AI 引用。
一个功能,集成 6 个 Bright Data 产品。结果是一个审计工作流——企业团队从零构建通常要耗费数月,这正是关键点。
企业用例:公司实际上怎么用它
追踪器是开源的,但它所依赖的基础设施(Bright Data 的 LLM 爬虫工具 API)才能扩展到真正的企业级工作负载。实际使用场景通常是这样的。
规模化品牌口碑监测
一家中型 SaaS 公司的 CMO 需要知道:当用户问 ChatGPT“我该信任哪个【品类】?”时,它怎么回答?答案是否准确?情绪是否正向?是否提到品牌?
没有追踪工具,你往往要三个月后才会从潜在客户口中得知:他们问了 AI,而 AI 推荐了竞争对手。有了追踪器,你可以每周批量跑一组与口碑相关的提示词;当情绪发生漂移时,漂移告警会触发;Citation Opportunities 会明确告诉你该生产什么内容、或该获取哪些外链来改变 AI 的答案。想更深入的团队,可以参考使用 Bright Data SDK 构建自动化品牌口碑监测工作流的详细指南:搭建自动化品牌口碑监测工作流。
销售团队的竞品情报
销售赋能与产品市场团队会遇到一个具体问题:竞争对手出现在本该属于自己的 AI 答案里。他们不知道是哪些查询、哪些模型、为什么会这样、以及该怎么做。
Competitor Battlecards 标签页会生成你的品牌与任意竞争对手的 AI 并排对比。引用缺口分析会精确指出:竞争对手因哪些 URL 被引用而你没有。过去这类情报往往是咨询机构以 $50k/年收费才能提供的。
多品牌/代理机构团队的 GEO 策略
一家管理 12 个品牌的代理机构无法承担每个品牌每月 $500 的 AI 可见性追踪费用,这个账很快就算不下去。
追踪器支持多工作区(multi-workspace)和 BYOK(Bring Your Own Key,自带 Key)模式,你只需为 Bright Data API 用量付费。按 $1.50/1K records 的按量计费,针对 10 个提示词、6 个模型做一次完整的每周追踪批处理,每个品牌的成本只要几角钱甚至更低。追踪 10 个品牌的成本,比买一个 SaaS 账号还便宜。
面向 SEO 客户的技术型 GEO 审计
当 SEO 客户问“我们是否做了 GEO 优化?”没有工具时,诚实答案通常很模糊。SRO Analysis 改变了这一点:它为每个页面给出 0–100 分,并提供清晰的优先级栈——修复 schema 标记、提高首段 BLUF 密度、从这三个域名争取引用。它让审计从“AI 优化很重要”变成“这周做这五件事”。如果你想看看这种多智能体 GEO 优化工作流如何端到端构建,使用 CrewAI 的 GEO 与 SEO 内容优化指南会详细讲解。
数据主权要求
企业采购与法务团队有一个合理担忧:他们不能把品牌追踪数据发送到第三方 SaaS 供应商的服务器。这会阻断几乎所有企业级 GEO 工具的落地。
追踪器的 local-first 架构(IndexedDB + localStorage)意味着:Bright Data 通过 API 提供结构化数据,而企业自行决定数据去向。Bright Data 本身符合 SOC 2 Type II、ISO 27001、GDPR 与 CCPA,因此能够通过企业安全评审。数据流也很干净:结构化响应进来,存到本地,没有中间方。
如果你也想做类似的东西,这意味着什么
追踪器只是 Bright Data LLM 爬虫工具 API 的一种应用。它所依赖的基础设施本质上是通用的。
如果你在构建 AI 监控看板、品牌情报工具、竞品研究产品,或任何需要规模化查询 AI 模型并获取结构化数据的应用,底层积木都是一样的。关于这些用例可用能力的背景信息,SERP 与网页搜索 API 对比对行业格局覆盖得很全面。Bright Data 在 195 个国家拥有 1.5 亿+住宅 IP 的网络,让 AI 平台看到的是真实用户流量;99.99% 的可用性保证你的自动化流水线不会在周二早上悄悄失败;最高可处理 5,000 个 URL 的批量请求,让你可以一次操作就完成企业级批处理追踪;支持将输出交付到 S3、GCS、Snowflake、Azure 与 SFTP,数据可直接落到你现有的技术栈里。
如果你还在考虑最佳 AI 智能体框架,以便把这些爬虫工具编排成完整的自主流水线,这就是一个自然的下一步。主流框架都能与 Bright Data 直接集成。
问题不在于要不要追踪 AI 可见性,而在于你能多快把基础设施搭起来,并对发现的问题采取行动。
开始使用 Bright Data 的 LLM 爬虫工具
如果你想运行自己的 GEO/AEO Tracker 实例,克隆仓库并添加 Bright Data API key 即可。不到 10 分钟就能跑起来:
git clone https://github.com/danishashko/geo-aeo-tracker.git
cd geo-aeo-tracker && npm install
# Add BRIGHT_DATA_KEY + 6 dataset IDs to .env
npm run dev
6 个 Bright Data 抓取工具 dataset ID(对应 ChatGPT 抓取工具 API、Perplexity 抓取工具、Gemini 抓取工具、Grok 抓取工具、Google AI Mode 抓取工具,以及 Copilot 抓取工具)在你注册 Bright Data 账号后,可直接在 Bright Data 抓取工具 Marketplace 中获取。
如果你想以企业规模构建自定义方案,LLM 爬虫工具就是基础设施层。两条路径的起点都一样:Bright Data 免费试用。