Index du robot d'exploration

Un large échantillon de robots d’indexation bloqués par les sites web.

71,6 %

des sites web ont au moins une commande de refus partielle.

71,6 %

des sites web ont au moins une commande de refus partielle.

Pourcentage de sites web bloquant explicitement les agents utilisateurs Pourcentage de sites web bloquant explicitement et avec la commande * Entreprise Objectif Agent utilisateur
2,5 %62,5 %Open AIGPTGPTBot
2,1 %62,5 %Common Crawl FoundationArchives Web publiquesCCBot
1,6 %62,5 %GoogleBard/Gemini/PaLM/BisonGoogle-Extended
0,6 %62,2 %OpenAIChat GPTchatgpt-user
1,8 %63,7 %AmazonAlexaamazonbot
0,5 %61,9 %Meta AILIaMAFacebookBot
0,5 %64,9 %BrandwatchMagpie Crawlermagpie-crawler
1,8 %64,9 %ByteDanceByteDance LLM N/ABytespider
0,5 %61,8 %AnthropicClaudeAnthropic-AI
1,6 %63,5 %AnthropicClaudeclaudebot
0,3 %62,5 %AnthropicClaudeclaude-web
0,4 %62,5 %PerplexityChatbotperplexitybot
0,3 %62,0 %CohereCommande CohereCohere-AI
1,3 %62,8 %AppleModèles fondamentaux d'AppleApplebot-Extended
0,3 %64,7 %AppleSiriApplebot
0,3 %64,7 %Diffbotdonnées d'entraînementdiffbot
1,4 %63,6 %MetaTout Meta IAmeta-externalagent
0,2 %64,6 %OpenAISearchGPToai-searchbot
0,2 %64,7 %TimpiWilson IAtimpibot
0,1 %64,7 %webz.iowebzio-extendedwebzio-extended
0,1 %64,1 %GoogleBard/Gemini/PaLM/Bisongoogleother
0,01 %65,0 %Perplexityperplexity-iaperplexity-ai
0,1 %64,7 %MetaTout Meta IAmeta-externalfetcher
Pourcentage de sites web bloquant explicitement les agents utilisateurs Pourcentage de sites web bloquant explicitement et avec la commande * Entreprise Objectif Agent utilisateur
20,5 %83,5 %Open AIChat GPTgptbot
17,1 %84,1 %Common Crawl FoundationArchives Web publiquesccbot
13,5 %84,8 %GoogleBard/Gemini/PaLM/Bisongoogle-extended
11,7 %83,4 %Open AIChat GPTchatgpt-user
12,2 %83,6 %AnthropicClaudeanthropic-ai
14,1 %83,4 %AnthropicClaudeclaudebot
10,2 %83,8 %AnthropicClaudeclaude-web
8,9 %83,6 %MetaLIaMAfacebookbot
12,4 %84,2 %ByteDanceByteDance LLM N/Abytespider
11,8 %83,4 %PerplexityChatbotperplexitybot
10,3 %84,2 %CohereCommande Coherecohere-ai
8,9 %84,4 %Apple.comModèles fondamentaux d'Appleapplebot-extended
4,9 %86,1 %Brand WatchMagpie Crawlermagpie-crawler
7,3 %83,7 %AmazonAlexaamazonbot
3,3 %85,1 %AppleSiriapplebot
1,8 %85,5 %GoogleBard/Gemini/PaLM/Bisongoogleother
2,9 %85,6 %Webzwebzio-extendedwebzio-extended
4,2 %85,5 %TimpiWilson IAtimpibot
1,4 %86,4 %Perplexityperplexity-iaperplexity-ai
4,8 %85,9 %MetaTout Meta IAmeta-externalfetcher
7,0 %83,6 %Open AIRechercher GPTOAI-searchbot
4,8 %85,9 %MetaTout Meta IAmeta-externalagent
Méthodologie

Bright Data collecte les données web publiques les plus recherchées au monde sur des milliards de sites web de premier plan. Grâce à notre produit de conformité, Bright Shield, nous recueillons les commandes d’autorisation et d’interdiction pour les agents utilisateurs dans le fichier robot.txt des sites web que nous collectons. Notre échantillon actuel de sites web compte 9 832 187 sites et nous avons recueilli environ 33 000 agents utilisateurs uniques.

Notre équipe de recherche a identifié le pourcentage de temps pendant lequel chaque agent utilisateur d’intérêt est explicitement bloqué dans notre échantillon et chaque agent utilisateur qui est bloqué avec la commande (*). Nous suivons également le pourcentage global de sites web qui interdisent tous les robots d’indexation. Chaque agent utilisateur est identifié au mieux de nos capacités par entreprise, utilisation et lien comprenant des informations supplémentaires telles que la manière de le bloquer.

Vous avez des commentaires sur les agents utilisateurs ? Envoyez vos commentairespar e-mail à [email protected]

Dernière mise à jour le 2 décembre 2025