Dans ce post, nous parlerons des points suivants :
- Mythe n° 1 :le web scraping n’est pas une pratique légale
- Mythe n° 2 :le web scraping est réservé aux développeurs
- Mythe n° 3 :le web scraping, c’est du piratage
- Mythe n° 4 :le web scraping, c’est facile
- Mythe n° 5 :une fois collectées, les données sont « prêtes à l’emploi »
- Mythe n° 6 :l’extraction de données est un processus entièrement automatisé
- Mythe n° 7 :il est facile d’adapter les opérations de web scraping à de plus gros volumes de données
- Mythe n° 8 :le web scraping produit de grandes quantités de données exploitables
Mythe n° 1 : le web scraping n’est pas une pratique légale
Beaucoup de gens croient à tort que le web scraping est illégal. La vérité est que le web scraping est parfaitement légal tant qu’il n’est pas utilisé pour collecter des informations protégées par mot de passe ou des données à caractère personnel (DCP). Par ailleurs, il faut faire attention aux conditions d’utilisation des sites web cibles, et s’assurer que les règles, les réglementations et autres stipulations mentionnées sont respectées lors de la collecte d’informations sur les sites web considérés. Les entreprises qui ciblent des données web Open Source anonymisées et qui travaillent uniquement avec des réseaux de collecte de données conformes aux réglementations CCPA et GDPR ne peuvent jamais se tromper.
Aux États-Unis, au niveau fédéral, il n’existe aucune loi interdisant le web scraping tant que les informations recueillies sont publiques et qu’aucun dommage n’est causé au site cible dans le cadre du processus de scraping. Dans l’Union européenne et au Royaume-Uni, le web scraping est considéré sous l’angle de la propriété intellectuelle, en vertu de la loi sur les services numériques. Cette loi stipule que « La reproduction de contenu publiquement disponible » n’est pas illégale, ce qui signifie que tant que les données collectées sont publiques, vous n’avez rien à craindre.
Mythe n° 2 : le web scraping est réservé aux développeurs
C’est un des mythes les plus répandus. De nombreux professionnels sans expérience technique renoncent souvent à la possibilité de contrôler les données qu’ils reçoivent, sans même s’intéresser au sujet. Il est vrai que diverses techniques de web scraping exigent des compétences techniques que ne possèdent généralement que des gens qui ont un profil de développeur. Mais il est tout aussi vrai que de nouveaux outils sans code sont actuellement disponibles. Ces solutions permettent d’automatiser le processus de web scraping en mettant des utilitaires d’extraction de données préintégrés à la disposition de l’employé moyen. Elles incluent également des modèles de web scraping pour des sites populaires tels qu’Amazon et Booking.
Mythe n° 3 : le web scraping, c’est du piratage
Ce n’est pas vrai. Le piratage consiste en des activités illégales qui impliquent généralement l’exploitation de réseaux ou de systèmes informatiques privés. Le but visé par les intéressés lorsqu’ils prennent le contrôle de ces systèmes est de se livrer à des activités illicites telles que le vol d’informations privées ou la manipulation de systèmes à des fins personnelles.
Le web scraping, en revanche, est la pratique qui consiste à accéder à des informations accessibles au public sur les sites web cibles. Ces informations sont généralement utilisées par les entreprises pour être plus compétitives sur leur marché. Il en résulte de meilleurs services et des prix plus justes pour les consommateurs sur le marché.
Mythe n° 4 : le web scraping, c’est facile
Beaucoup de gens croient à tort que « le web scraping, c’est du gâteau ». « Quel est le problème ? », demandent-ils – « Tout ce que vous avez à faire, c’est d’aller sur le site web qui vous intéresse et de récupérer les informations recherchées ». Conceptuellement cela semble juste, mais dans la pratique, le web scraping est une activité très technique, manuelle, et gourmande en ressources. Que vous choisissiez d’utiliser Java, Selenium, PHP, ou PhantomJs, vous avez besoin d’employer une équipe technique dédiée, qui sait écrire des scripts dans tous ces langages.
Souvent, les sites cibles ont des architectures complexes et des mécanismes de blocage qui changent constamment. Une fois ces obstacles surmontés, les jeux de données doivent généralement être nettoyés, synthétisés et structurés de manière à ce que les algorithmes puissent les analyser pour obtenir des informations intéressantes. Au final, le web scraping est tout sauf facile.
Mythe n° 5 : une fois collectées, les données sont « prêtes à l’emploi »
Ce n’est généralement pas le cas. De nombreux points doivent être pris en compte lors de la collecte des informations ciblées. Par exemple, dans quel format les informations peuvent-elles être capturées selon le format dans lequel vos systèmes peuvent acquérir des données ? Par exemple, imaginez que toutes les données que vous collectez soient au format JSON, mais que vos systèmes ne puissent traiter que des fichiers au format CSV. Au-delà du format, il y a aussi des questions de structuration, de synthèse et de nettoyage des données à résoudre avant que les données puissent être réellement utilisées. Cela peut inclure la suppression de fichiers corrompus ou dupliqués, par exemple. Ce n’est qu’une fois que les données sont formatées, nettoyées et structurées qu’elles sont prêtes à être analysées et utilisées.
Mythe n° 6 : l’extraction de données est un processus entièrement automatisé
Beaucoup de gens croient qu’il existe des bots qui font tranquillement du web scraping sur des sites Web et récupèrent des informations en un simple clic. Ce n’est pas vrai. Le gros du web scraping est une tâche manuelle, qui exige des équipes techniques pour superviser le processus et résoudre les problèmes. Il existe toutefois des moyens d’automatiser ce processus, soit en utilisant un outil tel qu’un environnement de développement intégré de web scraper, soit en achetant simplement des jeux de données précollectés, qui ne nécessitent pas de rentrer dans la complexité du processus d’extraction de données.
Mythe n° 7 : il est facile d’adapter les opérations de web scraping à de plus gros volumes de données
C’est totalement faux. Si vous gérez des logiciels et du matériel de collecte de données en interne, ainsi qu’une équipe technique pour gérer les opérations. Si vous cherchez à faire évoluer vos opérations de manière significative, il vous faut ajouter de nouveaux serveurs, embaucher de nouveaux employés et construire de nouveaux web scrapers pour vos sites cibles. Considérez que le seul entretien d’un serveur peut coûter en moyenne jusqu’à 1 500 $ par mois à une entreprise. Plus l’entreprise est grande, plus le coût est élevé.
En revanche, si vous faites appel à un fournisseur de données as-a-service, l’adaptation des opérations peut être extrêmement facile car vous vous reposez sur une infrastructure et des équipes tierces. Ainsi que sur des cartes de milliers de domaines web en constante évolution.
Mythe n° 8 : le web scraping produit de grandes quantités de données exploitables
Ce n’est généralement pas le cas. Les entreprises qui effectuent une collecte de données manuelle peuvent très souvent recevoir des données inexactes ou des informations illisibles. C’est pourquoi il est important d’utiliser des outils et des systèmes qui valident la qualité des données et acheminent le trafic via des appareils d’utilisateurs réels. Cela permet aux sites cibles de considérer les émetteurs de requêtes comme des utilisateurs réels et les « encourage » à récupérer des jeux de données précis pour les utilisateurs en question. L’utilisation d’un réseau de collecte de données qui utilise des processus de validation de la qualité vous permet de récupérer un échantillon de données de petite taille et de le valider avant d’exécuter la tâche de collecte dans son intégralité. Cela permet d’économiser du temps et des ressources.
Au final
Comme vous pouvez le constater, il existe de nombreuses idées fausses au sujet du web scraping. Maintenant que vous connaissez les faits, vous êtes mieux préparé pour aborder vos futures tâches de collecte de données.