Comment récupérer les images de Google avec Python

Un guide pas à pas sur le scraping de Google Images avec Python et Selenium, de la configuration à l’enregistrement des images.
15 min de lecture
How to Scrape Google Images blog image

Google Images est l’un des sites les plus difficiles à récupérer sur le web. Google ne bloque pas explicitement les scrapers, mais tout est fait pour vous compliquer le travail… Il faut vraiment les vouloir pour les avoir, ces images !

Des sélecteurs CSS dynamiques à l’encodage Base64, le scraping de Google Images ressemble beaucoup plus à la résolution d’un puzzle que le scraping de HTML ordinaire.

Prérequis

Pour faire du scrape sur Google Images avec nous, vous devez avoir une compréhension de base de Python et de Selenium. Vous devez vous assurer que Selenium est installé. Nous vous suggérons d’en apprendre davantage sur le web scraping avec Python et Selenium si nécessaire.

Tout d’abord, assurez-vous que ChromeDriver et Chrome sont installés. Vous pouvez télécharger la version la plus récente ici.

Lorsque vous téléchargez ChromeDriver, assurez-vous que vous obtenez une version qui correspond à votre version de Chrome.

Vous pouvez vérifier votre version de Chrome avec la commande suivante.

google-chrome --version

La sortie devrait être similaire à ce que vous voyez ci-dessous.

Google Chrome 131.0.6778.139 

Une fois que vous avez ces éléments, vous pouvez installer Selenium avec pip.

pip install selenium

Ce qu’il faut scraper

Nous n’allons pas nous contenter de plonger tête baissée dans le code. Nous devons d’abord comprendre ce que nous allons scraper et la façon dont nous allons le faire. Comme nous l’avons dit plus haut, l’extraction de Google Images s’apparente à la résolution d’un puzzle.

Examinons l’une des images de Google. Cette image est en fait intégrée dans une balise HTML personnalisée appelée g-img. Nous devons trouver tous ces éléments g-img .

Inspecter une image sur Google Images

Une fois que nous avons trouvé toutes les balises g-img , nous devons extraire leurs éléments img . Vous pouvez voir l’un d’entre eux ci-dessous.

Inspection de l’élément « img »

Si vous avez regardé l’img  de près, vous avez dû remarquer quelque chose d’extrêmement étrange. L’attribut « src » est une chaîne de caractères bizarres apparemment aléatoire.



Le début de cette chaîne est la clé de tout :  indique qu’il s’agit d’un fichier JPEG. base64 indique qu’il est encodé en utilisant Base64. Cette chaîne de caractères est en fait le code binaire de l’image elle-même. Nous ne pouvons pas remonter à la source réelle de l’image puisque son code binaire se trouve directement sur la page web. Cependant, nous pouvons écrire ce binaire dans un fichier et recréer l’image.

Scraping Google Images avec Python

Maintenant que nous savons ce que nous voulons, il est temps de commencer à coder notre scraper. Dans les prochaines sections, nous mettrons en place le scraper et nous verrons exactement ce que fait le code.

Pour commencer

Créez un nouveau fichier Python. Nous allons commencer par les importations et la structure de base.

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()

"""
Our actual scraping logic will go here
"""


if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Nous importons webdriver et By de Selenium. webdriver est utilisé pour contrôler notre navigateur. Nous utilisons By pour localiser des éléments sur la page.
  • Puis nous utilisons sleep pour mettre en pause notre scraper pendant un certain temps. Par exemple, si nous voulons que le scraper attende une seconde, nous utiliserons sleep(1).
  • Comme vous l’avez deviné, base64 va décoder nos images binaires.
  • Le chemin sera utilisé pour écrire nos images dans un dossier contenant nos résultats.
  • options = webdriver.ChromeOptions() permet d’utiliser des paramètres personnalisés avec Selenium. Il s’agit principalement d’exécuter Selenium en mode headless. Le mode headless (sans tête, en français) nous permet d’exécuter le scraper sans afficher l’interface du navigateur à l’écran. Cela permet d’économiser des ressources précieuses.

Récupérer les images de Google

Ensuite, nous allons écrire notre fonction de scraping. Le code ci-dessous contient l’intégralité de notre scraper. Prêtez une attention particulière à scrape_images().

from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path

options = webdriver.ChromeOptions()


def scrape_images(keyword, batch_size, headless=True):
    if headless:
        options.add_argument("--headless")

    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)

    result_count = 0

    driver = webdriver.Chrome(options=options)
    driver.get(f"https://www.google.com/search?q={formatted_keyword}")
    sleep(1)

    list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
    list_items[1].click()

    while result_count < batch_size:
        driver.execute_script("window.scrollBy(0, 300);")
        sleep(1)

        img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
        for img_tag in img_tags:
            src = img_tag.get_attribute("src")
            if not src or not src.startswith("data:image/"):
                continue

            base64_binary = src.split("base64,")[-1]
            mime_type = src.split(";")[0].split(":")[1]
            file_extension = mime_type.split("/")[-1]
            if file_extension == "gif":
                continue
            
            alt_text = img_tag.get_attribute("alt") or "image"
            filename = f"{alt_text}-{result_count}.{file_extension}"

            image_binary = base64.b64decode(base64_binary)
            output_path = output_folder.joinpath(filename)
            
            with open(output_path, "wb") as file:
                file.write(image_binary)
            result_count+=1
            print(f"Saved: {filename}")
            
    driver.quit()

if __name__ == "__main__":
    scrape_images("linux penguin", 100)
  • Par défaut, le mode headless est défini sur True. Si l’utilisateur lui donne la valeur False, cela lancera l’interface du navigateur et vous la verrez à l’écran. Ceci est utile à des fins de débogage.
  • Nous créons un mot-clé formaté (formatted_keyword) et un nom de dossier (folder_name) en supprimant les espaces de notre mot-clé (keyword). Cela nous permet de stocker les fichiers sans problème.
  • Nous lançons notre navigateur avec webdriver.Chrome(options=options).
  • driver.get(f"https://www.google.com/search?q={mot_clé_formaté}") nous amène aux résultats de recherche Google pour le mot clé que nous avons indiqué.
  • Nous devons maintenant cliquer sur l’onglet des images. Pour ce faire, nous recherchons tous les éléments « div » ayant le rôle « listitem ». Avec « list_items[1].click() » , nous cliquons sur le deuxième élément, l’onglet images.
  • Nous utilisons une boucle while pour exécuter notre code de scraping encore et encore jusqu’à ce que nous ayons trouvé toutes les images que nous voulions.
  • driver.execute_script("window.scrollBy(0, 300);") exécute JavaScript pour faire défiler la page de 300 pixels vers le bas. Après avoir fait défilé la page, nous faisons une petite pause (« sleep() ») pendant une seconde, pour laisser au contenu le temps de se charger.
  • driver.find_elements(By.CSS_SELECTOR, "g-img > img") permet de trouver toutes les balises « img » qui sont imbriquées dans une « g-img ».
  • Ensuite, nous itérons à travers les éléments img que nous avons trouvés.
  • Si l’img ne commence pas par « data:image/ », nous utilisons « continue » pour l’ignorer. Sinon, nous extrayons son attribut « src ».
  • Nous utilisons un découpage de chaîne de base pour extraire le code binaire codé et l’extension du fichier (JPEG, PNG, etc.). Si l’extension est « GIF », nous l’ignorons. Pour une raison quelconque, les GIF ne s’affichent pas lorsque nous les écrivons dans un fichier.
  • base64.b64decode(base64_binary) décode notre image en binaire lisible par la machine.

Si vous exécutez le code, vous verrez apparaître un nouveau dossier dans votre dossier de projet. Il doit être rempli d’images.

Le dossier des résultats est rempli de fichiers .png

Pendez à utiliser les données de Bright Data

Notre API SERP analyse les images Google pour que vous n’ayez pas à le faire. Il trouve même les métadonnées de l’image, de sorte que nos images auront des noms réels. Bien entendu, l’API est entièrement modulable et peut traiter un très grand nombre de demandes.

Tout d’abord, inscrivez-vous à notre SERP API.

Lorsque vous êtes prêt, terminez la création de la zone.

Finir de créer la zone

Sous Détails d’accès, vous verrez vos informations d’identification.

Vos informations d’identification pour l’API SERP

Copiez et collez le code ci-dessous dans un fichier Python. Remplacez les informations d’identification dans « proxy_auth » par les vôtres et vous pouvez commencer.

import requests
import base64
from pathlib import Path
import json

proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"


def scrape_images(keyword):
    formatted_keyword = keyword.replace(" ", "+")
    folder_name = keyword.replace(" ", "-")
    output_folder = Path(f"serp-results-{folder_name}")
    output_folder.mkdir(parents=True, exist_ok=True)
    url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"

    response = requests.get(
        url,
        proxies={"http": proxy_url, "https": proxy_url},
        verify=False
    )

    images = response.json()["images"]

    result_count = 0
    for image in images:    
        image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
        title = image["title"].replace(" ", "-").replace("/", "").strip(".")
        file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
        if file_extension == "gif":
            continue
        filename = f"{title}.{file_extension}"

        with open(output_folder.joinpath(filename), "wb") as file:
            file.write(image_binary)
            print(f"Saved: {filename}")

if __name__ == "__main__":
    scrape_images("linux penguin")

Si vous exécutez le code, vous obtiendrez à nouveau de nombreuses images, mais cette fois-ci, elles auront chacune un nom.

Les résultats de l'image en utilisant l'API SERP

Conclusion

En conclusion, l’extraction d’images à partir de Google est un peu comme essayer de résoudre un puzzle sans en connaître toutes les pièces. Notre Google Images API trouve les métadonnées et élimine le besoin de Selenium !

Si vous avez besoin de récupérer des images d’autres sources, nous avons également une Instagram Image API, Shutterstock Scraperet différents ensembles de données structurés. Inscrivez-vous maintenant et trouvez le produit idéal pour vos besoins, y compris un essai gratuit !

Aucune carte de crédit requise