Bright Data Brightbot Crawler
Qu'est-ce que Brightbot ?
Brightbot est le robot d'indexation de Bright Data. Son objectif est d'être le principal canal de collecte de données pour tous les produits et services de Bright Data. Il dispose d'une couche de cache intégrée qui empêche le téléchargement répétitif des mêmes données sur une période de 24 heures, sauf en cas d'exception justifiée par des raisons commerciales particulières. Il utilise des mesures technologiques étendues afin de garantir une utilisation équitable des ressources disponibles sur le site web et d'empêcher tout abus. L'activité de Brightbot est totalement transparente, car il utilise son propre agent utilisateur et son propre sous-réseau IP source. Son trafic et ses activités peuvent donc être entièrement séparés du trafic des utilisateurs, et peuvent être suivis et même contrôlés à l'aide de la console Web Master et du fichier collectors.txt de Bright Data.
Comment identifier le Trafic Brightbot ?
Brightbot peut être facilement identifié grâce à deux paramètres :
- User-Agent : « Brightbot 1.0 »
- Sous-réseau IP source 82.97.199.0/24
L'utilisation des deux garantira une identification précise.
Pourquoi les sites web devraient-ils mettre Brightbot sur liste blanche ?
- Filtrez le trafic de collecte à partir des données d'analyse d'utilisation et du moteur de recommandation.
- Protection à 99,99 % contre les abus - Une fois que Brightbot est ajouté à la liste blanche du site web, Bright Data est prêt à obliger tous ses clients à travailler uniquement via Brightbot, au risque d'en perdre certains, afin d'obtenir un contrôle total sur le trafic.
- Réduisez les tentatives répétées et les demandes de ressources en double.
- Séparez le trafic et limitez les ressources qui le gèrent.
- Bénéficiez d'une transparence totale sur ce que les autres consultent sur votre site web grâce aux statistiques et aux tableaux de bord fournis.
- Prenez des décisions beaucoup plus éclairées sur ce qui doit être déplacé (le cas échéant) vers des pages accessibles après connexion, plutôt que vers des données publiques.
Qu'est-ce que la console Web Master ?
La console Webmaster est le moyen utilisé par Bright Data pour communiquer avec les propriétaires de sites Web. Elle permet aux propriétaires de sites Web d'enregistrer leur propriété de domaine dans la console et d'obtenir une transparence et un contrôle sur le trafic de collecte ciblant ces domaines.
La méthode d'authentification est simple : il suffit d'ajouter un jeton généré dans l'entrée DNS du domaine.

Dans la page des statistiques de chaque domaine, le propriétaire peut obtenir les statistiques de santé du domaine telles que mesurées par Bright Data et les statistiques de trafic.

Alertes
Dans la console, le webmaster peut ajouter des règles d'alerte qui permettent à l'utilisateur de suivre et d'être alerté lorsque certains types d'informations sont consultés, par exemple, l'analyse des données à caractère personnel, l'accès à des points de terminaison spécifiques d'un site web, etc.


Qu'est-ce que collectors.txt ?
Le fichier collectors.txt est une ressource configurable fournie par la Web MasterConsole de Bright Data, qui permet au webmaster de définir des directives pour une collecte de données éthique et efficace à partir de ses sites web. Son objectif principal est d'améliorer la transparence et le contrôle en communiquant des règles d'accès et des limitations spécifiques à Brightbott, le robot d'indexation de Bright Data. Le webmaster peut utiliser collectors.txt pour spécifier les points de terminaison contenant des informations personnelles identifiables (PII), interdire l'accès à des éléments interactifs tels que les liens publicitaires ou les avis, signaler les charges de trafic organique, mettre à jour le statut des droits d'auteur des données et définir les périodes de trafic de pointe afin d'éviter la surcharge des ressources. Ce fichier garantit que la collecte de données est conforme aux lois sur la confidentialité et aux contraintes en matière de ressources, favorisant ainsi une interaction responsable avec le site web. Une fois configuré, Bright Data examine le fichier collectors.txt et Brightbot applique les directives approuvées pendant ses opérations.
Technologie de protection
Au fil des ans, Bright Data a ajouté de nombreuses fonctionnalités et couches technologiques pour aider à identifier, prévenir et atténuer les abus intentionnels ou accidentels de son réseau. Les outils de conformité, tels que la Vérification KYC, seront détaillés dans la section consacrée à la conformité. Nous nous concentrons ici sur les technologies automatiques déployées à cette fin.
Moniteurs de santé (protection DDoS)
Pour chaque domaine ciblé par l'un des produits de Bright Data, le système ouvre un moniteur de santé. Le moniteur de santé suit la réactivité du domaine 24 heures sur 24, 7 jours sur 7, dans toutes les zones géographiques et à tous les moments. Chaque moniteur de santé reçoit également un flux de trafic agrégé de Bright Data ciblant le domaine qu'il surveille en temps réel. Si le moniteur détecte une corrélation entre le trafic de Bright Data et une dégradation de la réactivité du domaine, il appliquera une limite de débit correspondant au dernier débit de trafic qui n'avait pas d'impact négatif sur le domaine. Cette limite de débit est mise en cache et n'est pas supprimée.
Vous trouverez ci-dessous un exemple d'un tel cas : l'impact a été identifié et une limite de débit a été appliquée en moins de 2 minutes. Le marqueur rouge indique le trafic qui a ensuite été bloqué par Bright Data et le retour à la normale du RTT du site web.

Classification des domaines
Bright Data classe tous les domaines ciblés par ses clients sur chaque produit. Plus de 300 000 nouveaux domaines sont classés chaque jour. Certaines classifications sont définitivement mises sur liste noire, comme les logiciels malveillants et le phishing, et certaines catégories sont bloquées par défaut, mais peuvent être ciblées après examen et approbation par le service de conformité, comme les agences gouvernementales et les ONG.

Blocage des cookies et de l'authentification
Par défaut, Bright Data considère que toutes les données derrière la connexion sont privées. Ainsi, dans tout le trafic visible, Bright Data bloque l'utilisation des cookies d'authentification et, lors de l'utilisation de navigateurs, Bright Data bloque également la possibilité de saisir des mots de passe.
Une autorisation spéciale peut être obtenue en soumettant une demande à compliancDCe. L'autorisation sera accordée dans de très rares cas où le propriétaire des données a expressément consenti à l'accès du client.
Suivi des cas d'utilisation
Pendant la conformité Vérification KYC, Bright Data enregistre les domaines cibles et les secteurs verticaux déclarés par le client lorsqu'il demande l'accès au réseau de Proxys résidentiels.
Une fois l'autorisation accordée, Bright Data suit l'utilisation du client et, si celle-ci s'écarte des cas d'utilisation déclarés, un signalement est envoyé à l'équipe chargée de la conformité, qui mènera une enquête auprès du client.
Conformité et éthique
- Politique d'utilisation acceptable -
https://brightdata.com/trustcenter/acceptable-use-policy-bright-data - Processus de Vérification KYC (Know Your Customer) de Bright Data -
https://brightdata.com/trustcenter/kyc - Surveillance de l'utilisation -
https://brightdata.com/trustcenter/proxy-services-verticals-usage-monitoring - Classification des domaines -
https://brightdata.com/trustcenter/ethical-network-use-classification - Prévention et gestion des abus -
https://brightdata.com/trustcenter/abuse - Protection du WWW -
https://brightdata.com/trustcenter/brightbot-ethical-web-data-guardian - Surveillance du Web -
https://brightdata.com/trustcenter/ethical-web-data-collection-monitoring - Infosec -
https://brightdata.com/trustcenter/data-security-overview-protection-measures