Les CAPTCHA ont été développés dans le but de distinguer les utilisateurs humains des programmes informatiques automatisés. Ils sont généralement utilisés comme barrière de protection pour les services web, afin d’empêcher toutes sortes d’actions nuisibles ou perturbatrices susceptibles d’être effectuées par des robots ou des scripts automatisés, notamment la création de comptes multiples, l’exécution d’attaques automatisées par force brute, la collecte de données par web scraping et le spamming.
Les CAPTCHA empêchent ces actions en présentant un test de défi-réponse, conçu pour être facile à résoudre pour les humains mais difficile pour les algorithmes et les programmes automatisés.
Dans cet article, vous découvrirez certains des types de CAPTCHA les plus courants et vous apprendrez à utiliser le Web Unlocker de Bright Data pour les contourner.
Différents types de CAPTCHA
Les défis CAPTCHA peuvent se présenter sous diverses formes, notamment :
CAPTCHA textuels
Les CAPTCHA textuels sont l’un des types de CAPTCHA les plus courants ; ils imposent aux utilisateurs d’identifier et de saisir correctement une série de caractères présentés dans une police déformée ou de manière stylisée. L’accès à un site web ou à une ressource en ligne est alors accordé ou refusé selon l’exactitude de la réponse :
Voici quelques-unes des caractéristiques des CAPTCHA textuels :
- Distorsion : les CAPTCHA textuels appliquent souvent des techniques de distorsion à des caractères de type inhabituel, ce qui les rend difficiles à interpréter avec précision par les logiciels automatisés. Cette distorsion fait intervenir des modifications de dimensions, de formes, des rotations, ainsi que l’utilisation de polices, styles et espacements différents.
- Contraintes de temps : les CAPTCHA textuels sont généralement assortis d’une limite de temps prédéfinie. Cela procure une sécurité supplémentaire, car les logiciels sophistiqués ne peuvent pas prendre trop de temps pour résoudre ces défis.
- Sensibilité à la casse : Les CAPTCHA textuels comprennent généralement des majuscules et des minuscules, et les utilisateurs doivent le plus souvent saisir les caractères avec la casse appropriée.
- Randomisation : Les caractères présentés dans ces défis CAPTCHA sont généralement générés aléatoirement pour s’assurer que chaque défi soit bien unique.
CAPTCHA basés sur des images
Dans les CAPTCHA basés sur des images, les utilisateurs se voient présenter des images qu’ils doivent identifier et avec lesquelles ils doivent interagir correctement pour accéder à la page qu’ils désirent. Ces défis sous forme d’images sont conçus pour être visuellement chargés et difficiles à interpréter pour les scripts automatisés, car ils nécessitent des capacités de reconnaissance d’image sophistiquées – qui vont généralement au-delà des capacités des scripts automatisés :
Voici quelques caractéristiques clés des CAPTCHA basés sur des images :
- Identification visuelle et interaction : les CAPTCHA basés sur des images exigent souvent que les utilisateurs identifient, reconnaissent et interagissent avec des éléments spécifiques figurant dans une image. Ces éléments peuvent être des objets, des signes ou tout autre élément visuellement reconnaissable.
- Résolution de puzzle : certains types de CAPTCHA basés sur des images proposent aux utilisateurs de résoudre un puzzle. Ces énigmes peuvent impliquer de faire correspondre des éléments similaires ou de compléter correctement des motifs visuels complexes.
- Contraintes de temps : tout comme leurs homologues textuels, les CAPTCHA basés sur des images imposent souvent une limite de temps.
CAPTCHA audio
Les CAPTCHA audio ont été principalement développés comme moyen alternatif de vérification humaine pour les personnes malvoyantes. Cependant, ils peuvent constituer une alternative intéressante pour les utilisateurs qui éprouvent des difficultés pour déchiffrer des textes déformés ou effectuer des tâches d’analyse d’images.
Les défis CAPTCHA audio peuvent inclure des tâches telles que l’écoute d’une séquence de caractères et leur saisie dans le bon ordre, ou la réponse à des instructions audio, par exemple cliquer sur un bouton donné lorsque vous entendez un mot spécifique :
Voici quelques-unes des caractéristiques des CAPTCHA audio :
- Accessibilité : les CAPTCHA audio sont principalement conçus pour garantir l’accessibilité aux utilisateurs malvoyants, qui doivent parfois recourir à des lecteurs d’écran ou autres technologies d’assistance.
- Faible niveau de sécurité : les CAPTCHA audio offrent un niveau de sécurité moins bon que leurs homologues visuels. Cela est principalement dû à leur plus grande vulnérabilité aux bots avancés, qui sont capables d’analyser et de répondre aux CAPTCHA audio. Pour atténuer ce risque, les CAPTCHA audio incorporent souvent des éléments tels que du bruit de fond, des variations de hauteur tonale ou autres altérations audio permettant d’augmenter la complexité du problème.
CAPTCHA basés sur des puzzles
Les CAPTCHA basés sur des puzzles demandent aux utilisateurs de compléter correctement un puzzle. Cette méthode de vérification humaine constitue une approche plus sûre que les CAPTCHA textuels. Certains puzzles courants impliquent de faire glisser des pièces, de reconnaître des motifs ou de faire correspondance des couleurs :
Voici quelques caractéristiques clés des CAPTCHA basés sur des puzzles :
- Sécurité renforcée : les CAPTCHA basés sur les puzzles sont connus pour être moins vulnérables aux bots car leur résolution nécessite certaines capacités, telles que la correspondance de formes et la reconnaissance d’images, qui sont plus complexes que la lecture de texte ordinaire et la reconnaissance optique de caractères.
- Interactivité : les CAPTCHA basés sur des puzzles sont conçus pour être interactifs. Cela rend le processus plus attrayant et agréable pour l’utilisateur.
Comment contourner les CAPTCHA avec Web Unlocker
Grâce à la popularité croissante du web scraping, les solutions de résolution de CAPTCHA utilisent désormais l’apprentissage automatique et l’intelligence artificielle pour identifier et contourner efficacement les CAPTCHA. Le Web Unlocker de Bright Data fait partie de ces solutions.
Avec le Web Unlocker, lancer une requête de proxy est facile ; les utilisateurs peuvent spécifier leur site web cible et recevoir une réponse structurée sous divers formats, par exemple HTML et JSON. Le processus de récupération des données est également simple, et ce grâce à l’algorithme de Web Unlocker, qui identifie les réseaux de proxys les plus adéquats, personnalise les en-têtes des requêtes, implémente les empreintes de navigateur et résout les CAPTCHA de toute sorte.
Pour tirer parti des capacités de Web Unlocker pour la résolution de CAPTCHA, inscrivez-vous pour un essai gratuit. Après avoir entré vos coordonnées dans les champs de saisie désignés, vous serez redirigé vers une interface de bienvenue :
Sélectionnez Proxies & Scraping Infrastructure, puis choisissez la solution Web Unlocker. Vous serez ensuite guidé vers le segment Configuration, où vous pourrez saisir le nom et les paramètres de configuration souhaités :
Une fois que c’est fait, sélectionnez Save and activate. Avant que le produit ne soit activé, vous serez invité à entrer vos informations de paiement. Ce processus est nécessaire pour activer vos crédits gratuits, mais vous ne serez pas facturé.
Une fois que vous avez saisi vos informations de paiement, retournez à la section Proxies & Scraping Infrastructure. Repérez le Web Unlocker nouvellement généré dans la liste tabulée des ressources et cliquez dessus. Vous serez redirigé vers l’onglet Access Parameter de votre solution Web Unlocker :
Vos identifiants d’accès comprennent votre hôte, votre nom d’utilisateur et votre mot de passe, qui seront utilisés pour authentifier les requêtes de proxys. Cliquez sur le bouton Check out code and integration ; vous verrez alors un script cURL :
Copiez ce script et lancez votre terminal ou invite de commande. Exécutez le script ; vous devriez voir les données récupérées s’afficher dans votre fenêtre de terminal :
{
"ip": "196.212.93.740",
"country": "US",
"asn": {
"asnum": 265,
"org_name": "Vodafone"
},
"geo": {
"city": "Newyork",
"region": "NE",
"region_name": "North East USA",
"postal_code": "",
"latitude": 40.7128,
"longitude": 74.0060,
"tz": "USA/NY",
"lum_city": "newyork",
"lum_region": "ne"
}
}
Dans cet exemple, le Web Unlocker a exécuté une requête sur l’URL https://lumtest.com.
Pour mettre un peu mieux en évidence les capacités du Web Unlocker de Bright Data, nous allons vous montrer comment utiliser Web Unlocker pour accéder à une ressource web protégée par CAPTCHA.
Dans cet article, vous utiliserez Web Unlocker pour accéder à la page de connexion de Postman, qui est protégée par un CAPTCHA.
Dans une fenêtre privée ou Incognito, collez l’URL de connexion de Postman (c’est-à-dire https://identity.getpostman.com/login) et appuyez sur Enter ou Return. Un CAPTCHA apparaîtra, comme illustré ici :
Une fois terminé, la page de connexion de Postman s’ouvre :
Pour contourner ce CAPTCHA à l’aide du Web Unlocker de Bright Data, lancez une requête de proxy à Postman via Web Unlocker en exécutant la requête cURL suivante sur votre ligne de commande ou votre terminal :
curl --proxy brd.superproxy.io:22225 --proxy-user [BRIGHTDATA USERNAME]:[BRIGHTDATA PASSWORD] -k https://identity.getpostman.com/login
Veillez à remplacer l’adresse du proxy et l’utilisateur par les informations d’identification de votre proxy Bright Data Web Unlocker.
Lors de l’exécution de la commande cURL, Web Unlocker devrait franchir automatiquement le CAPTCHA :
Pour le confirmer, copiez la réponse cURL et collez-la dans l’éditeur web de votre choix. Le résultat doit être la représentation HTML de la page de connexion de Postman :
Pour simplifier l’intégration de Web Unlocker dans votre système, vous pouvez générer le code requis en spécifiant le langage de programmation de votre choix, l’URL cible et tout élément de configuration supplémentaire nécessaire. Il vous suffit de copier le code généré et de l’intégrer à votre solution de collecte de données pour bénéficier d’une expérience utilisateur fluide en toute simplicité :
Conclusion
L’émergence d’outils tels que le Web Unlocker de Bright Data a révolutionné l’accès automatisé aux sites Internet et la collecte de données. Dans cet article, vous avez découvert cinq types différents de CAPTCHA, ainsi que des techniques permettant de les contourner.
Bien que Web Unlocker puisse permettre la résolution automatisée des CAPTCHA, il est très important de bien comprendre les aspects éthiques et juridiques de son utilisation, et de s’assurer qu’il est utilisé de manière responsable et non malveillante.
Aucune carte de crédit requise