Tutorial
How to Increase Request Speed
6 Min
intermediate
May 3, 2024
Unlock the full potential of web scraping and data gathering with this comprehensive guide to using a proxy with Python Requests, featuring Bright Data. Whether you're a beginner looking to understand the basics or an experienced developer aiming to optimize your projects, this tutorial covers all you need to know about setting up and managing proxies effectively.
In this video you'll learn
  • Why using a proxy is essential for web scraping
  • How to set up Bright Data proxies with Python Requests
  • Best practices for managing proxy rotation and avoiding IP blocks
  • Tips and tricks to enhance your data collection strategies
Start Your Free Trial

Apprenez à accélérer la vitesse des requêtes grâce à de simples manipulations de Proxy.

Ordre du jour

  • Étapes simples pour résoudre les problèmes de vitesse courants
  • Utilisation des adresses IP les plus rapides et d’un super Proxy pour vos domaines cibles
  • Réduire la bande passante de réponse
  • Optimiser les configurations Proxy

Vous ne souhaitez pas regarder le webinaire ? Lisez-le

Le temps passé à envoyer et à recevoir des requêtes est important pour la réussite de vos opérations de collecte de données. Nous commencerons par vous montrer comment accélérer le temps de requête.
Je vais commencer par utiliser le gestionnaire de Proxy qui me permet de modifier la requête avant qu’elle n’atteigne le super Proxy.

Le gestionnaire de proxy agit comme intermédiaire entre le crawler et les super proxys, aidant à contrôler et à modeler le trafic vers les super proxys et vers le nœud de sortie du Proxy (appelé peer).
Il contrôle également ce qui doit se passer après avoir obtenu la réponse.

Le gestionnaire de proxy est un logiciel open source installé localement sur votre ordinateur.
Il est disponible en téléchargement sur notre site web : brightdata.com/products/proxy-manager, github.com/luminati-io/luminati-proxy, npmjs.com/package/@luminati-io/luminati-proxy et hub.docker.com/r/luminati/luminati-proxy/

Nous commencerons par examiner les journaux de requêtes disponibles dans le tableau de bord du gestionnaire de Proxy et sous l’onglet HAR Viewer de chacun des ports Proxy.
Cliquez sur la requête pour afficher les détails de la requête et de la réponse, ainsi que leur timing.
Le timing indique le temps nécessaire à l’envoi et à la réception de la requête par le site cible, ainsi que le temps nécessaire à la réponse pour revenir.
Lorsque le temps d’envoi de la requête dépasse le temps souhaité, nous pouvons le modifier en allant dans l’onglet « Request speed » (Vitesse de requête) du port Proxy.

Je peux choisir le super Proxy le plus proche de mon emplacement afin d’avoir un aller-retour plus court.
Cela peut être fait par le gestionnaire de Proxy, en allant dans Proxy Manager et dans le port Proxy sous l’onglet Request speed (Vitesse de requête), sélectionnez le pays souhaité dans la liste déroulante Super proxy’s location (Emplacement du super Proxy).
Notez que la géolocalisation de l’adresse IP du nœud de sortie n’est pas affectée par l’emplacement du super Proxy lui-même.

L’obtention du super Proxy par géolocalisation, pour une latence plus courte, peut également être effectuée à l’aide de la commande servercountry-COUNTRY_CODE.zproxy.lum-superproxy.io Actuellement, les codes pays pris en charge pour l’obtention d’un super Proxy sont AU, CN, GB, IN, NL, US.
Par exemple, pour obtenir un super Proxy depuis l’Australie, il suffit d’exécuter cette commande : servercountry-au.zproxy.lum-superproxy.io

Une autre option pour améliorer la vitesse consiste à envoyer chaque requête plusieurs fois en parallèle via différents super Proxys, ce qui permettra d’utiliser le plus rapide.
Pour ce faire, définissez Parallel race requests (Requêtes parallèles) sur 3 et le nombre minimum de super Proxys sur 5.
Le réglage « résoudre le DNS au niveau du super Proxy » sera également plus rapide que la résolution côté pair.
Une fois que vous l’avez configuré, effectuez un petit test en envoyant une requête au site web cible pour vérifier que cela a fonctionné.

Une autre façon d’améliorer la vitesse des requêtes consiste à définir un seuil de vitesse et à enregistrer un pool d’adresses IP qui répondent à ce seuil.
Cela peut être fait dans le gestionnaire de Proxy, sous l’onglet Règles.
Je vais créer une règle qui se déclenche lorsqu’une requête atteint mes seuils de temps ou tombe en dessous du seuil en sélectionnant « Temps de requête inférieur à » et « 500 millisecondes ».

Ensuite, je sélectionne l’action « Enregistrer l’adresse IP dans le pool rapide », ce qui créera un pool d’adresses IP les plus rapides pour mon site web cible spécifique, et je définirai la taille du pool à 20 adresses IP.
N’oubliez pas d’activer l’analyseur HTTPS pour que les règles du gestionnaire de Proxy fonctionnent avec les protocoles https.
Consultez les instructions sur brightdata.com/faq#proxy-certificate.
En fonction de votre système d’exploitation et de votre navigateur, vous trouverez ici des instructions plus spécifiques pour chacun d’entre eux.
Il est possible d’optimiser un temps de réponse lent en supprimant les fichiers inutiles de la réponse.
Pour ce faire, dans l’onglet « Règles », sélectionnez le type de fichier à supprimer dans le champ « regex » et activez un déclencheur pour des URL spécifiques.
Vous trouverez à droite la règle sous forme de fonction JavaScript que vous pouvez copier dans votre code.
Notez qu’il est important de toujours tester votre règle en cliquant sur « Test » sous la section « Règles ».

Le réseau du centre de données et le réseau résidentiel statique ont une limite de 500 requêtes par seconde et par adresse IP.
Lorsque vous atteignez ce seuil, vous recevez l’erreur suivante : CODE 429 : TUN_ERR : Trop de requêtes par IP.

Pour résoudre ce problème, réduisez le taux de requêtes ou achetez des IP afin de répartir la charge sur plusieurs IP de centre de données.
Les IP de centre de données sont des IP de machines, et les IPs résidentielles statiques sont des IPs de FAI qui sont extrêmement rapides et peuvent être utilisées aussi longtemps que nécessaire.
Il n’y a pas de limite au nombre de requêtes utilisant le réseau résidentiel, qui comprend des dizaines de millions d’adresses IP d’utilisateurs réels.

Bright Data compte de nombreux clients qui envoient plus de 20 millions de requêtes par jour.
Pour les clients qui traitent des dizaines de millions de requêtes par jour, la configuration idéale consiste à connecter votre robot d’indexation ou votre bot au Proxy Manager ou via l’API au Proxy Manager qui vous connecte au Super Proxy.

Le Proxy Manager est installé dans vos locaux et, en cas de charges élevées, il est nécessaire de répartir le trafic entre plusieurs Proxy Managers.
Sinon, vous risquez d’obtenir un code d’erreur 502 en raison de la charge de trafic élevée sur une seule machine Proxy Manager.

Pour configurer plusieurs Proxy Managers, installez le Proxy Manager sur un PC, configurez les ports proxy requis, le ciblage des ports proxy, les règles réseau et la configuration des ports.
Le port Proxy peut être configuré dans l’onglet Général, et sélectionnez Oui pour activer les journaux SSL.

Maintenant, ajoutez les adresses IP sur liste blanche que vous souhaitez connecter à ce port Proxy, c’est-à-dire l’adresse IP de votre crawler ou bot.
Cela garantira que seules les sources autorisées utiliseront chacun des ports Proxy du gestionnaire de Proxy.
Il vous suffit d’obtenir les adresses IP de votre machine de crawler, de les saisir dans le champ « Whitelist IPs access » (Accès aux adresses IP sur liste blanche) et de cliquer sur V.

Accédez maintenant à l’onglet « Manual Configuration » (Configuration manuelle) et copiez le fichier JSON.
Pour installer le gestionnaire de Proxy sur d’autres machines, accédez à l’onglet « Manual Configurations » (Configurations manuelles), cliquez sur « Edit » (Modifier), collez le fichier JSON et enregistrez.
Cela copiera tous les ports Proxy que vous avez définis avec leurs configurations, y compris les IP sur liste blanche.

Maintenant que nous avons plusieurs machines équipées du gestionnaire de proxy, la répartition du trafic entre les instances s’effectue en dirigeant les requêtes vers l’adresse IP de la machine et le port du gestionnaire de proxy correspondants.

Les requêtes se présenteront comme suit :
requête 1 -> [première adresse IP du serveur] :24000
requête 2 -> [deuxième adresse IP du serveur] :24000

Remarque : n’oubliez pas d’installer le certificat Proxy Manager comme décrit précédemment.

Pour conclure notre webinaire, voici les étapes à suivre pour augmenter la vitesse des requêtes :

  • Acheminez le trafic vers le Proxy le plus rapide en fonction de votre emplacement
  • Envoyez des requêtes parallèles sur plusieurs super proxies afin d’utiliser le plus rapide
  • Résolvez le DNS côté Proxy
  • Supprimez les fichiers inutiles de la réponse
  • Enregistrez l’adresse IP la plus rapide dans un pool d’adresses IP rapides pour une utilisation future
  • Répartissez la charge de trafic sur plusieurs instances et machines Proxy Manager

Nous espérons que ce webinaire vous aura été utile. N’hésitez pas à consulter notre foire aux questions ou à regarder nos webinaires précédents sur brightdata.com/webinar

Téléchargement de ressources

The Data You Need
Is Only One Click Away.