Outil open source de suivi de la visibilité basé sur l’IA avec Bright Data

Les modèles d’IA répondent désormais aux questions que vos clients posaient auparavant à Google. Si votre marque n’apparaît pas dans ces réponses, vous êtes pratiquement invisible et vous ne le savez probablement même pas. J’ai développé un outil gratuit et open source pour suivre précisément cela. Voici ce que j’ai appris, et pourquoi les API Scraper de Bright Data étaient la seule infrastructure capable de le faire fonctionner.

Résumé rapide :

Le GEO/AEO Tracker est un tableau de bord de visibilité IA gratuit et open source qui suit simultanément 6 modèles d’IA.
Il utilise les LLM Scrapers de Bright Data pour interroger ChatGPT, Gemini, Perplexity, Grok, Copilot et Google IA Mode.
Bright Data fournit des résultats structurés (citations, sources, texte de réponse) par modèle, via un modèle d’API unique.
Les outils professionnels payants coûtent entre 200 et 600 dollars par mois et verrouillent vos données ; cette solution ne coûte que quelques centimes par requête et toutes les données restent en local.
Le pipeline SRO utilise l’API SERP, Web Unlocker et les LLM Scrapers de Bright Data dans un workflow de bout en bout.
Toutes les données restent dans votre propre environnement. Pas de dépendance vis-à-vis d’un fournisseur, pas de base de données externe.

Le problème géographique que personne n’a encore entièrement résolu

ChatGPT a dépassé les 900 millions d’utilisateurs actifs hebdomadaires début 2026. Les aperçus IA de Google apparaissent désormais dans environ 16 % de toutes les recherches. Et le trafic provenant des moteurs de recherche IA génère un taux de conversion 23 fois supérieur à celui des visiteurs organiques traditionnels. Ahrefs l’a confirmé à partir de ses propres données, constatant que 0,5 % de son trafic provenant de sources IA générait 12,1 % de toutes les inscriptions.

McKinsey prévoit que 750 milliards de dollars de chiffre d’affaires aux États-Unis proviendront de la recherche alimentée par l’IA d’ici 2028. Il ne s’agit pas d’une prévision concernant un état futur. C’est déjà le cas, requête après requête, chaque fois que quelqu’un demande à ChatGPT « quel CRM devrais-je utiliser ? » ou à Perplexity « qui propose le meilleur logiciel de gestion de projet ? »

On ne peut pas optimiser ce qu’on ne peut pas mesurer. Et mesurer la visibilité de l’IA a été soit trop coûteux, soit trop limité, soit les deux.

Ce que j’ai créé : le GEO/AEO Tracker en 60 secondes

Le GEO/AEO Tracker est un tableau de bord open source de veille de la visibilité de l’IA, axé sur le local. Vous pouvez essayer la démo en direct dès maintenant sans clé API.

Il suit votre marque simultanément et en parallèle sur ChatGPT, Perplexity, Gemini, Grok, Google IA Mode et Microsoft Copilot, toutes les données étant stockées localement dans votre navigateur via IndexedDB. Pas de base de données externe. Pas de dépendance vis-à-vis d’un fournisseur.

13 fonctionnalités, 6 modèles d’IA, aucune dépendance vis-à-vis d’un fournisseur

J’ai développé cet outil parce que je me heurtais sans cesse au même problème : tous les outils que j’évaluais coûtaient trop cher, m’enfermaient dans leur écosystème ou ne couvraient pas suffisamment de modèles. J’ai donc créé l’outil que je souhaitais utiliser.

Les fonctionnalités les plus importantes pour le suivi des marques dans le monde réel :

Prompt Hub exécute n’importe quelle requête sur les 6 modèles à la fois. Pour une équipe de marketing produit qui suit les requêtes concurrentielles, cela fait la différence entre mener 6 expériences distinctes et n’en mener qu’une seule. Vous pouvez gérer une bibliothèque complète de requêtes, utiliser l’injection {marque} pour la substitution dynamique et déclencher des exécutions par lots, le tout en parallèle.

Visibility Analytics vous donne une note de 0 à 100 basée sur le taux de mention de la marque, la position dans les réponses, la fréquence de citation et le sentiment au fil du temps. C’est l’indicateur clé de performance (KPI) que les directeurs marketing peuvent communiquer à leurs supérieurs sans avoir à fournir une présentation de 20 diapositives. Il est également exportable au format CSV.

Citation Opportunities est la fonctionnalité dont je suis le plus fier. Elle montre pour quelles URL vos concurrents sont cités là où vous n’apparaissez pas. Il s’agit d’un flux d’informations direct sur les lacunes de contenu et le link building, fourni automatiquement.

L’analyse SRO (plus d’informations ci-dessous) est un pipeline en 6 étapes qui évalue, sur une échelle de 0 à 100, le niveau d’optimisation d’une page spécifique pour les résultats de recherche IA, avec des recommandations prioritaires et exploitables. Elle utilise plusieurs produits Bright Data au sein d’un même flux de travail.

Les alertes Drift se déclenchent automatiquement lorsque votre score de visibilité change de manière significative. Une évolution de la réputation de marque dans les réponses de l’IA peut s’aggraver rapidement. Le savoir en quelques jours est très différent de le savoir lors de votre revue mensuelle.

Pourquoi Bright Data était la seule base viable

C’est la partie de l’histoire de la création que la plupart des gens ignorent, mais c’est la raison pour laquelle l’outil fonctionne avec une qualité de production au lieu de tomber en panne chaque semaine.

Le défi du scraping dont personne ne parle

ChatGPT, Perplexity, Gemini, Grok, Google IA Mode et Copilot sont tous :

Entièrement rendus en JavaScript. Une simple requête HTTP ne renvoie rien d’utile.
Fermement bloqués par des robots. Ils détectent les schémas de trafic automatisés et les rejettent. Les techniques anti-scraping les plus courantes — notamment l’empreinte digitale du navigateur, les défis CAPTCHA et l’analyse comportementale — sont toutes utilisées simultanément sur ces plateformes.
Structurellement différentes les unes des autres. Chaque plateforme renvoie les données dans un format différent. Perplexity utilise le markdown avec des sources en ligne. Gemini renvoie les citations sous forme de tableau structuré séparé. Grok dispose d’un champ response_raw en plus de answer_text_markdown.
Dépendantes de la géolocalisation. Une même requête peut renvoyer des réponses et des citations différentes selon le pays d’où la requête semble provenir.

Construire et maintenir des Scrapers pour les six plateformes à partir de zéro nécessiterait une infrastructure de Proxys résidentiels, la Résolution de CAPTCHA, la gestion des sessions, la normalisation des réponses entre les modèles, l’interrogation des réponses asynchrones et une maintenance continue à chaque fois qu’une plateforme met à jour sa structure. Cela représente des mois de travail d’ingénierie avant même d’écrire une seule ligne de logique de suivi.

Bright Data réduit tout cela à un seul appel API par modèle.

Six Scrapers, une clé API : comment cela fonctionne en code

L’intégration principale dans brightdata-scraper.ts suit un modèle simple et reproductible pour les six fournisseurs :

// Étape 1 : envoi d'une requête POST vers le point de terminaison du jeu de données Bright Data
const scrapeResponse = await fetch(
  `https://api.brightdata.com/datasets/v3/scrape?dataset_id=${datasetId}&format=json`,
  {
    method: "POST",
    headers: { Authorization: `Bearer ${BRIGHT_DATA_KEY}`, "Content-Type": "application/json" },
    body: JSON.stringify({
      input: [{ url: providerBaseUrl[provider], prompt: request.prompt, index: 1 }]
    }),
  }
);

// Étape 2 : Gérer la réponse asynchrone — vérifier la disponibilité du snapshot
if (scrapeResponse.status === 202) {
  const { snapshot_id } = await scrapeResponse.json();
  await monitorUntilReady(snapshot_id); // interroge /progress/{id} toutes les 2 secondes
  payload = await downloadSnapshot(snapshot_id); // GET /snapshot/{id}?format=json
}

// Étape 3 : Normaliser le résultat
const answer = normalizeAnswer(record); // gère les 6 formats de modèle
const sources = extractSourcesFromAnswer(answer); // fusionne le texte et les citations structurées

Chaque modèle utilise ce même schéma. La seule chose qui change est le dataset_id, une variable d’environnement par fournisseur : BRIGHT_DATA_DATASET_CHATGPT, BRIGHT_DATA_DATASET_PERPLEXITY, et ainsi de suite.

Voici l’architecture : un modèle d’intégration, six modèles, un résultat structuré cohérent à chaque fois.

À quoi ressemble concrètement la sortie structurée

Chaque Scraper Bright Data renvoie des champs spécifiques au modèle. La fonction normalizeAnswer() gère les différences de format entre les modèles afin que le reste de l’application dispose d’une interface cohérente :

Modèle	Champs clés renvoyés
ChatGPT	`answer_text`, `links_attached`, `citations`, `recommendations`, `country`
Perplexity	`answer_text_markdown`, `sources`, `source_html`, `is_shopping_data`
Gemini	`texte_de_réponse`, `citations`, `liens_joints`, `index`, `pays`
Grok	`texte_réponse`, `texte_réponse_markdown`, `citations`, `réponse_brute`
Mode IA Google	`texte_réponse`, `citations`, `liens_joints`, `index`, `pays`
Copilot	`answer_text_markdown`, `sources`, `answer_section_html`, `index`

La couche de normalisation vérifie d’abord answer_text, se rabat ensuite sur answer_text_markdown, puis sur response_raw, avant d’effectuer une extraction récursive approfondie sur l’enregistrement brut. Bright Data gère la complexité spécifique à la plateforme ; l’application gère la normalisation multiplateforme. Séparation claire des préoccupations.

Le pipeline SRO : la pile complète de Bright Data en une seule fonctionnalité

L’analyse SRO est la fonctionnalité la plus complexe sur le plan technique du tracker, et c’est aussi la démonstration la plus claire de ce que l’infrastructure de Bright Data permet à grande échelle.

L’idée : évaluer le niveau d’optimisation d’une page spécifique pour les résultats de recherche IA, sur une échelle de 0 à 100, avec des recommandations concrètes. Le pipeline en six étapes derrière ce score :

Étape 1 : Gemini Grounding. Utilise l’API Google Gemini pour comprendre comment les systèmes IA perçoivent la page, notamment son sujet, ses signaux d’autorité et la structure de son contenu.

Étape 2 : Citations multiplateformes. Appelle les 6 Scrapers LLM de Bright Data en parallèle via scrapeAllPlatforms() pour vérifier si l’URL ou le domaine cible est cité lorsque le mot-clé pertinent est recherché sur ChatGPT, Perplexity, Gemini, Grok, Google IA Mode et Copilot.

Étape 3 : Analyse SERP. Utilise l’API SERP de Bright Data pour extraire les données de classement organique du mot-clé. Si la page se classe en première position dans les résultats organiques mais n’est citée dans aucune réponse IA, il s’agit d’un écart GEO qui mérite d’être mis en évidence.

Étape 4 : Extraction de la page. Utilise Web Unlocker de Bright Data pour récupérer le contenu réel de la page et analyser sa structure, sa profondeur, sa densité BLUF, la hiérarchie des titres et le balisage Schema. Pas de paywall, pas de blocage des bots.

Étape 5 : Contexte du site. Utilise à nouveau Web Unlocker de Bright Data pour extraire la page d’accueil et les signaux d’autorité de marque que les systèmes IA utilisent pour décider s’ils doivent citer une source.

Étape 6 : Analyse LLM. Synthétise tous les éléments ci-dessus en un score SRO final ainsi qu’une liste de recommandations classées par ordre de priorité : ce qu’il faut corriger en premier, quelles lacunes de contenu existent, où vos concurrents vous surpassent en matière de citation par l’IA.

Une seule fonctionnalité. Six intégrations de produits Bright Data. Le résultat est un workflow d’audit qui prendrait des mois à une équipe d’entreprise à construire à partir de zéro, et c’est justement le but.

Cas d’utilisation en entreprise : ce que les entreprises font réellement avec cet outil

Le tracker est open source, mais c’est l’infrastructure sur laquelle il repose (les API LLM Scraper de Bright Data) qui s’adapte aux charges de travail réelles des entreprises. Voici à quoi cela ressemble en pratique.

Surveillance de la réputation de marque à grande échelle

Le directeur marketing d’une entreprise SaaS de taille moyenne a besoin de savoir : lorsqu’un utilisateur demande à ChatGPT « à quelle [catégorie de produit] dois-je faire confiance ? », que répond-il ? La réponse est-elle exacte ? Le sentiment est-il positif ? La marque est-elle même mentionnée ?

Sans outil de suivi, vous ne le découvrirez que trois mois plus tard, lorsqu’un prospect vous dira qu’il a interrogé une IA et que celle-ci lui a recommandé un concurrent. Avec le tracker, vous lancez chaque semaine une série de requêtes sensibles à la réputation, des alertes de dérive se déclenchent lorsque le sentiment change, et l’onglet « Opportunités de citation » indique exactement quel contenu produire ou quels backlinks obtenir pour modifier la réponse de l’IA. Pour les équipes qui souhaitent aller plus loin, il existe un guide détaillé sur la mise en place d’un workflow automatisé de surveillance de la réputation de marque à l’aide du SDK de Bright Data.

Intelligence compétitive pour les équipes commerciales

Les équipes d’aide à la vente et de marketing produit sont confrontées à un problème spécifique : des concurrents apparaissent dans les réponses de l’IA pour des requêtes qui devraient leur revenir. Elles ne savent pas de quelles requêtes il s’agit, quels modèles sont concernés, pourquoi, ni comment y remédier.

L’onglet « Competitor Battlecards » génère des comparaisons côte à côte, alimentées par l’IA, entre votre marque et n’importe quel concurrent. L’analyse des écarts de citations montre exactement quelles URL du concurrent sont citées là où les vôtres ne le sont pas. C’est le genre d’informations pour lesquelles les agences facturaient auparavant 50 000 $ par an.

Stratégie GEO pour les équipes multimarques ou les agences

Une agence gérant 12 marques ne peut pas se permettre de dépenser 500 $ par mois et par marque pour le suivi de la visibilité par IA. Le calcul ne tient pas la route.

Grâce à la prise en charge de plusieurs espaces de travail et au modèle BYOK (Bring Your Own Key) du tracker, vous ne payez que l’utilisation de l’API Bright Data. À 1,50 $ pour 1 000 enregistrements en paiement à l’utilisation, l’exécution d’un lot de suivi hebdomadaire complet sur 10 requêtes et 6 modèles ne coûte que quelques centimes par marque. Dix marques suivies pour moins cher qu’une licence SaaS.

Audits techniques GEO pour les clients SEO

Lorsque les clients SEO demandent « sommes-nous optimisés GEO ? », la réponse honnête, sans outil, est vague. L’analyse SRO change la donne. Elle fournit un score de 0 à 100 par page avec une liste de priorités concrète : corriger le balisage Schema, améliorer la densité BLUF dans le paragraphe d’introduction, obtenir des citations de ces trois domaines. C’est la différence entre un audit qui dit « l’optimisation IA est importante » et un autre qui dit « voici les cinq choses à faire cette semaine ». Si vous souhaitez découvrir comment ce type de workflow d’optimisation GEO multi-agents peut être mis en place de bout en bout, le guide d’optimisation de contenu GEO et SEO avec CrewAI vous explique exactement comment procéder.

Exigences en matière de souveraineté des données

Les équipes juridiques et d’approvisionnement des entreprises ont une préoccupation légitime : elles ne peuvent pas envoyer de données de suivi de marque vers les serveurs d’un fournisseur SaaS tiers. Cela bloque l’adoption de presque tous les outils GEO commerciaux au niveau de l’entreprise.

Grâce à l’architecture « local-first » du tracker (IndexedDB + localStorage), Bright Data fournit des données structurées via une API, et l’entreprise décide de leur destination. Bright Data est elle-même conforme aux normes SOC 2 Type II, ISO 27001, RGPD et CCPA, ce qui lui permet de passer les contrôles de sécurité des entreprises. Le flux de données est clair : réponse structurée en entrée, stockage local, aucun intermédiaire.

Ce que cela signifie si vous souhaitez créer quelque chose de similaire

Le tracker est l’une des applications des API LLM Scraper de Bright Data. L’infrastructure sur laquelle il fonctionne est polyvalente.

Si vous développez un tableau de bord de surveillance IA, un outil de veille de marque, un produit de veille concurrentielle ou toute application nécessitant d’interroger des modèles d’IA à grande échelle et d’obtenir des données structurées en retour, les éléments de base sont les mêmes. Pour avoir une idée de ce qui est disponible pour ces cas d’utilisation, le comparatif des meilleures API SERP et de recherche Web offre un bon aperçu du paysage. Le réseau de Bright Data, composé de plus de 150 millions d’adresses IP résidentielles réparties dans 195 pays, permet aux plateformes d’IA de voir le trafic réel des utilisateurs. Avec un temps de disponibilité de 99,99 %, vos pipelines automatisés ne tomberont pas en panne sans crier gare un mardi matin. La gestion des requêtes en masse pouvant atteindre 5 000 URL vous permet d’effectuer un suivi par lots à l’échelle de l’entreprise en une seule opération. La livraison des résultats vers S3, GCS, Snowflake, Azure et SFTP signifie que les données sont directement transférées vers la pile que vous utilisez déjà.

Si vous envisagez également d’utiliser les meilleurs frameworks d’agents IA pour orchestrer ces Scrapers en un pipeline entièrement autonome, c’est une étape logique. Tous les principaux frameworks s’intègrent directement à Bright Data.

La question n’est pas de savoir s’il faut suivre la visibilité de l’IA. Il s’agit plutôt de déterminer à quelle vitesse vous pouvez mettre en place l’infrastructure nécessaire pour agir sur ce que vous découvrez.

Commencez avec les Scrapers LLM de Bright Data

Si vous souhaitez exécuter votre propre instance du GEO/AEO Tracker, clonez le dépôt et ajoutez votre clé API Bright Data. Vous serez opérationnel en moins de 10 minutes :

git clone https://github.com/danishashko/geo-aeo-tracker.git
cd geo-aeo-tracker && npm install
# Ajoutez BRIGHT_DATA_KEY + 6 identifiants de Jeux de données à .env
npm run dev

Les six identifiants de Jeux de données des scrapers Bright Data (pour l’API ChatGPT Scraper, Perplexity Scraper, Gemini Scraper, Grok Scraper, Google IA Mode Scraper et Copilot Scraper) sont disponibles directement sur la Bright Data Scrapers Marketplace dès que vous disposez d’un compte.

Si vous souhaitez créer une solution personnalisée à l’échelle de l’entreprise, les Scrapers LLM constituent la couche d’infrastructure. Les deux parcours commencent au même endroit : un essai gratuit de Bright Data.

Consultez le dépôt open source sur GitHub

Contacter ventes Essai gratuit