¿Qué es un recopilador web?

7 min read
What is a web crawler featured image

Los recopiladores web (crawlers) son una parte fundamental de la infraestructura de Internet. En este artículo hablaremos de ello:

Definición de recopilador web

Un robot d’indexation est un robot logiciel qui analyse Internet et télécharge les données qu’il trouve. La plupart des robots d’indexation sont exploités par des moteurs de recherche comme Google, Bing, Baidu et DuckDuckGo. Les moteurs de recherche appliquent leurs algorithmes de recherche aux données collectées pour former leur index de moteur de recherche. Les index permettent aux moteurs de recherche de fournir des liens pertinents aux utilisateurs en fonction de leurs requêtes.

Il existe des robots d’indexation utilisés à d’autres fins que les moteurs de recherche, comme la Wayback Machine d’Internet Archive, qui fournit des instantanés de sites web à un moment donné du passé.  

Comment fonctionnent les robots d’indexation ?

Les robots d’indexation, comme Googlebot de Google, commencent leur journée avec une liste de sites web qu’ils veulent parcourir. C’est ce que l’on appelle le budget de crawl ou budget d’exploration. Ce budget reflète la demande des pages de l’index. Deux facteurs principaux influencent le budget de crawl : la popularité et l’obsolescence. Les URL qui sont plus populaires sur Internet ont tendance à être explorées plus souvent, ce qui permet de les maintenir mieux placées dans l’index. Les robots d’indexation tentent également d’éviter que des URL deviennent obsolètes dans l’index.

Lorsqu’un robot d’indexation se connecte à un site, il commence par télécharger et lire le fichier robots.txt. Le fichier robots.txt fait partie du protocole REP (robot exclusion Protocol), groupe de normes web qui régissent la façon dont les robots parcourent le web, accèdent aux contenus, les indexent et les servent aux utilisateurs. Les propriétaires de sites Internet peuvent définir les agents utilisateurs autorisés ou non à accéder à leur site. Le fichier robots.txt peut également définir une directive de délai de crawling pour réduire la fréquence des requêtes qu’un web crawler est susceptible d’adresser au site web. robots.txt répertorie également les plans associés à un site, de sorte que le web crawler peut en trouver toutes les pages, ainsi que la date de leur dernière mise à jour. Si une page n’a pas changé depuis la dernière visite du robot d’indexation, elle sera ignorée cette fois-ci.  

Lorsqu’un robot d’indexation atteint enfin une page à parcourir, il affiche la page dans un navigateur, en chargeant tout le code HTML, les codes tiers, le JavaScript et le CSS. Ces informations sont stockées dans la base de données du moteur de recherche, puis utilisées pour indexer et classer la page ultérieurement. Il télécharge également tous les liens présents sur la page. Les liens qui ne sont pas déjà dans l’index du moteur de recherche sont ajoutés à une liste pour être explorés par la suite.

Le respect des directives contenu dans un fichier robots.txt est facultatif. La majorité des principaux moteurs de recherche suivent les directives de robots.txt, mais certains ne le font pas. Les acteurs malveillants, comme les spammeurs et les réseaux de machines zombies, ignorent les directives de robots.txt. Même certains robots d’indexation légitimes, comme Internet Archive, ne tiennent pas compte de robots.txt.

Exemples de robots d’indexation

Les moteurs de recherche utilisent plusieurs types de robots d’indexation. Par exemple, Google a 17 types de bots :

  • APIs-Google
  • AdSense
  • AdsBot Mobile Web Android
  • AdsBot Mobile Web
  • Googlebot Image
  • Googlebot News
  • Googlebot Video
  • Googlebot Desktop
  • Googlebot Smartphone
  • Mobile Apps Android
  • Mobile AdSense
  • Feedfetcher
  • Google Read Aloud
  • Duplex on the web
  • Google Favicon
  • Web Light
  • Google StoreBot

Pourquoi les robots d’indexation sont importants pour le référencement

Le but du référencement (ou SEO) est que votre contenu apparaisse facilement à un utilisateur qui recherche un terme de recherche en rapport avec vous. Google ne peut pas savoir où classer vos contenus s’ils ne sont pas explorés et indexés.

Les robots d’indexation peuvent également s’avérer utiles dans d’autres domaines. Les sites de commerce en ligne parcourent souvent les sites concurrents pour y analyser la sélection et la tarification des produits. Ce type de collecte de données est généralement appelé web scraping plutôt que web crawling. Le web scraping se concentre sur des éléments de données HTML spécifiques. Les web scrapers assurent des tâches très ciblées, tandis que les web crawlers jettent un grand filet à la mer et récupèrent tout ce qu’ils trouvent. Côté utilisateur, il existe également des outils d’API de SERP (pages de résultats des moteurs de recherche) qui permettent d’explorer et de collecter des données de SERP.  

Problèmes auxquels sont confrontés les robots d’indexation

Il existe un certain nombre de problèmes auxquels les web crawlers peuvent se retrouver confrontés.

ProblèmeDescription
Restrictions de robots.txtSi le robot d’indexation respecte les restrictions de robots.txt, il est possible qu’il ne puisse pas accéder à certaines pages web ou soumettre des requêtes au-delà d’une limite arbitraire.
Interdictions d’adresse IPPuisque certains robots d’indexation ne respectent pas les restrictions de robots.txt, les sites peuvent mettre en œuvre un certain nombre d’autres outils pour restreindre le web crawling. Ils peuvent interdire des adresses IP connues pour être malveillantes, comme les proxys gratuits utilisés par les fraudeurs ou certaines adresses IP de centres de données.
Restrictions géographiquesCertains sites exigent qu’un visiteur soit situé dans une zone géographique spécifique pour le laisser accéder à leur contenu. Vous le constaterez aisément si vous essayez d’accéder à des contenus Netflix destinés aux États-Unis à partir d’un emplacement extérieur à ce pays. La plupart des restrictions géographiques peuvent être surmontées en utilisant des réseaux de proxys résidentiels.  
CAPTCHALorsque certains sites web des volumes élevés d’activité provenant de sources suspectes, lancent des CAPTCHA pour vérifier que l’émetteur d’une requête est bien un utilisateur réel. Les CAPTCHA peuvent perturber l’activité des robots d’indexation. De nombreuses solutions de web scraping disposent des outils et des technologies nécessaires pour surmonter ces types de blocage. Ces outils de déblocage utilisent souvent une solution de résolution de CAPTCHA.  

Résumé

Les robots d’indexation constituent une partie essentielle de l’infrastructure d’Internet. Ils permettent aux moteurs de recherche de recueillir les données dont ils ont besoin pour construire leurs index de recherche, ce qui leur permet de fournir des résultats de recherche pour les requêtes utilisateur. De nombreuses entreprises recourent aux robots d’indexation pour les aider dans leurs recherches. En réalité, ils se focalisent le plus souvent sur un ou deux sites, comme Amazon, Adidas ou Airbnb. Dans ces cas d’utilisation, des outils comme l’environnement de développement intégré (EDI) pour web scraper de Bright Data sont plus adaptés à leurs besoins.