« Les 10 commandements de la collecte éthique de données » (d’un point de vue technique)

La collecte éthique de données se manifeste de manière très concrète dans le fonctionnement quotidien d’un réseau. Voici les éléments auxquels vous devez prêter attention
8 min de lecture
Ethical Data Collection Ten Commandments

Dans cet article, nous aborderons les points suivants :

Qu’est-ce qui rend un réseau de collecte de données éthique d’un point de vue technique ?

[1] Mise en œuvre des procédures de vérification KYC

  • Tous les utilisateurs potentiels du réseau doivent se soumettre à un processus de vérification rigoureux mené par un employé senior et/ou un responsable de la conformité.
  • Si le client potentiel est une entreprise, les éléments suivants doivent être vérifiés : (i) l’enregistrement de l’entreprise afin de s’assurer de son authenticité, (ii) le site web de l’entreprise, (ii) le domaine de messagerie électronique de l’entreprise (iv) les profils de l’entreprise sur les réseaux sociaux.
  • Pour les clients indépendants potentiels, des entretiens vidéo et une preuve physique d’identité doivent être exigés. Les réseaux de collecte de données doivent également confirmer que l’adresse physique est légitime et que l’adresse IP et l’adresse de facturation de la carte de crédit correspondent.

[2] Blocage des points de terminaison API exploitables

Les réseaux de collecte de données éthiques doivent bloquer les points de terminaison API susceptibles d’être utilisés à mauvais escient, notamment :

Création de faux comptes (sur les réseaux sociaux, les sites d’avis, les institutions financières, etc.)

Fraude publicitaire (par exemple, fraude au clic)

Avis fictifs (y compris les fausses évaluations de produits, les avis sur les services et les votes massifs)

[3] Supervision de l’utilisation du réseau mondial

L’utilisation du réseau mondial doit être surveillée afin de s’assurer qu’elle ne s’approche pas des taux d’attaques par déni de service (DDoS). Si les taux de trafic commencent à augmenter, ils seront automatiquement réduits.

Le moniteur de trafic ne surveille pas seulement le trafic d’un client spécifique vers un domaine cible spécifique, mais aussi le trafic agrégé de tous les clients sur tous les produits vers ce domaine cible, afin d’éviter toute situation de DDoS involontaire.

Mapping out how a DDOS attack works, with attacker setting up zombie computer to then enter the proxy network and attack a victim computer

Source de l’image : Bright Data

De plus, les gestionnaires de compte doivent effectuer une surveillance granulaire des journaux d’événements des clients une fois que les autorisations réseau ont été accordées. Si une divergence est constatée entre le cas d’utilisation de la vérification KYC dudit client et l’activité pratique de son compte, celui-ci doit être définitivement résilié.

Par exemple, un client qui prétend effectuer des tests sur un site web mais qui tente en réalité d’utiliser le réseau pour commettre une fraude publicitaire. Grâce à la surveillance, les équipes chargées de la conformité peuvent identifier ces abus du réseau et les stopper net.

[4] La règle de limitation du trafic par site – Ne pas nuire

Les réseaux de collecte de données doivent veiller à ce que leur activité n’interfère pas avec la qualité de service habituelle du site. Même si la tâche de collecte utilise 10 % des ressources du site et est loin d’atteindre les proportions d’une attaque DDoS, elle peut néanmoins affecter les performances et la collecte de statistiques opérationnelles, ce qui amènera l’équipe produit du site web à tirer des conclusions erronées sur le comportement de ses utilisateurs.

À ce titre, les réseaux de collecte de données doivent étudier leurs cibles et fixer des limites par domaine en fonction des niveaux de trafic opérationnels standard du site. Cela permet de garantir qu’aucun préjudice ne sera causé aux niveaux de service tout en contribuant à maintenir les statistiques d’utilisation d’un site.

[5] Mise sur liste noire des domaines non publics

Les fournisseurs de données éthiques doivent mettre sur liste noire les domaines qui ne contiennent pas d’informations publiques et open source pouvant être ciblées pour des activités abusives. Cela peut inclure :

Attaques contre les serveurs de paiement – Cela peut inclure tout type d’activité, des achats illégaux à l’aide d’identifiants falsifiés ou volés au piratage et aux attaques DDoS.

Perturbation des serveurs API – Il peut s’agir d’une attaque directe contre les serveurs web, les applications ou les deux.

[6] Consentement des pairs

Les réseaux de collecte de données légitimes ne routeront le trafic via les appareils des pairs qu’après avoir obtenu leur consentement actif à une description détaillée des conditions d’utilisation. Par défaut, l’utilisateur n’est pas inscrit. Il doit s’agir d’un échange équitable, ce qui signifie que les réseaux de collecte de données peuvent router le trafic via les appareils des pairs, et que ces derniers sont en contrepartie rémunérés pour ces ressources. Cela peut inclure un abonnement gratuit amélioré, une version sans publicité de l’application ou tout autre élément ayant une influence positive sur l’expérience utilisateur.

[7] Ressources inutilisées

Les réseaux de collecte de données éthiques se font un devoir de n’utiliser les ressources des pairs (c’est-à-dire d’acheminer le trafic) que dans des conditions strictes, en veillant à ce que l’expérience utilisateur ne soit que peu ou pas modifiée. Ces conditions doivent garantir au minimum que les appareils des utilisateurs :

  • Sont inactifs (non utilisés) lorsque le trafic est acheminé
  • soient connectés au WiFi en utilisant des quantités très limitées de données 3G/LTE
  • Disposent d’une autonomie suffisante

La bande passante médiane par pair devrait varier en fonction de la géolocalisation. La moyenne mondiale recommandée dans la pratique devrait être de 8 Mo par pair et par jour, soit la moitié de la taille d’une page produit Amazon donnée.

conditions for using opt-in device - when device is not in use, connected to WIFI connection and has enough batter powerSource de l’image : Bright Data

[8] Limitations réseau définies

Les plateformes de collecte de données éthiques surveillent et limitent le trafic passant par les appareils individuels des pairs afin de consommer des ressources négligeables par rapport à l’utilisation propre de l’utilisateur. Par exemple, si un utilisateur moyen visite plusieurs sites web au cours de la journée, écoute de la musique et regarde quelques courtes vidéos, l’utilisation d’une plateforme de collecte de données éthique serait, en comparaison, équivalente au chargement d’une seule page produit Amazon sur un navigateur classique.

[9] Opt-in / Opt-out

Les réseaux de collecte de données doivent être basés sur un réseau peer-to-peer démocratique. Les individus qui composent ce réseau doivent être libres de s’inscrire et de se désinscrire à tout moment. Il s’agit d’un principe fondamental de la transparence sur Internet qui doit être respecté afin de garantir un flux décentralisé et libre de données et d’informations.

[10] Conformité au RGPD (sécurité, stockage et informations personnelles identifiables)

Les réseaux de collecte de données éthiques doivent respecter les règles du RGPD, notamment, mais sans s’y limiter :

  • Collecte des adresses IP en tant qu’informations personnelles identifiables uniquement avec le consentement total de l’utilisateur – protection de la vie privée des utilisateurs et non-collecte d’autres informations privées ou statistiques comportementales. Aucune donnée provenant de l’utilisateur ou le concernant n’est collectée.
  • Respecter pleinement les règles du RGPD et du CCPA en matière de sécurité et de stockage des données collectées en tant qu’IDE de scraping web RGPD et de processeurs de données RGPD.

Conclusion

Bright Data respecte les 10 commandements éthiques en matière de collecte de données. Il est recommandé de faire preuve de diligence raisonnable lors du choix d’une plateforme de collecte de données, afin de garantir :

  • La valeur à long terme des informations
  • La viabilité juridique des données, ainsi que des analyses, produits et services qui en découlent
  • La sécurité de vos réseaux, systèmes et logiciels

Enfin, l’élément qui prime sur tout le reste est la transparence : vous devez faire preuve de transparence et démontrer votre fiabilité. À titre indicatif, soyez ouvert aux changements fréquents et vérifiez et testez régulièrement vos directives. Il s’agit d’un domaine en constante évolution, et il n’est pas facile de tout faire correctement.