Google Images est l’un des sites les plus difficiles à récupérer sur le web. Google ne bloque pas explicitement les scrapers, mais tout est fait pour vous compliquer le travail… Il faut vraiment les vouloir pour les avoir, ces images !
Des sélecteurs CSS dynamiques à l’encodage Base64, le scraping de Google Images ressemble beaucoup plus à la résolution d’un puzzle que le scraping de HTML ordinaire.
Prérequis
Pour faire du scrape sur Google Images avec nous, vous devez avoir une compréhension de base de Python et de Selenium. Vous devez vous assurer que Selenium est installé. Nous vous suggérons d’en apprendre davantage sur le web scraping avec Python et Selenium si nécessaire.
Tout d’abord, assurez-vous que ChromeDriver et Chrome sont installés. Vous pouvez télécharger la version la plus récente ici.
Lorsque vous téléchargez ChromeDriver, assurez-vous que vous obtenez une version qui correspond à votre version de Chrome.
Vous pouvez vérifier votre version de Chrome avec la commande suivante.
google-chrome --version
La sortie devrait être similaire à ce que vous voyez ci-dessous.
Google Chrome 131.0.6778.139
Une fois que vous avez ces éléments, vous pouvez installer Selenium avec pip
.
pip install selenium
Ce qu’il faut scraper
Nous n’allons pas nous contenter de plonger tête baissée dans le code. Nous devons d’abord comprendre ce que nous allons scraper et la façon dont nous allons le faire. Comme nous l’avons dit plus haut, l’extraction de Google Images s’apparente à la résolution d’un puzzle.
Examinons l’une des images de Google. Cette image est en fait intégrée dans une balise HTML personnalisée appelée g-img
. Nous devons trouver tous ces éléments g-img
.
Une fois que nous avons trouvé toutes les balises g-img
, nous devons extraire leurs éléments img
. Vous pouvez voir l’un d’entre eux ci-dessous.
Si vous avez regardé l’img de près, vous avez dû remarquer quelque chose d’extrêmement étrange. L’attribut «
src
» est une chaîne de caractères bizarres apparemment aléatoire.

Le début de cette chaîne est la clé de tout : data:image/jpeg;base64,
. jpeg
indique qu’il s’agit d’un fichier JPEG. base64
indique qu’il est encodé en utilisant Base64. Cette chaîne de caractères est en fait le code binaire de l’image elle-même. Nous ne pouvons pas remonter à la source réelle de l’image puisque son code binaire se trouve directement sur la page web. Cependant, nous pouvons écrire ce binaire dans un fichier et recréer l’image.
Scraping Google Images avec Python
Maintenant que nous savons ce que nous voulons, il est temps de commencer à coder notre scraper. Dans les prochaines sections, nous mettrons en place le scraper et nous verrons exactement ce que fait le code.
Pour commencer
Créez un nouveau fichier Python. Nous allons commencer par les importations et la structure de base.
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
"""
Our actual scraping logic will go here
"""
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- Nous importons
webdriver
etBy
de Selenium.webdriver
est utilisé pour contrôler notre navigateur. Nous utilisonsBy
pour localiser des éléments sur la page. - Puis nous utilisons
sleep
pour mettre en pause notre scraper pendant un certain temps. Par exemple, si nous voulons que le scraper attende une seconde, nous utiliseronssleep(1)
. - Comme vous l’avez deviné,
base64
va décoder nos images binaires. Le chemin
sera utilisé pour écrire nos images dans un dossier contenant nos résultats.options = webdriver.ChromeOptions()
permet d’utiliser des paramètres personnalisés avec Selenium. Il s’agit principalement d’exécuter Selenium en mode headless. Le mode headless (sans tête, en français) nous permet d’exécuter le scraper sans afficher l’interface du navigateur à l’écran. Cela permet d’économiser des ressources précieuses.
Récupérer les images de Google
Ensuite, nous allons écrire notre fonction de scraping. Le code ci-dessous contient l’intégralité de notre scraper. Prêtez une attention particulière à scrape_images()
.
from selenium import webdriver
from selenium.webdriver.common.by import By
from time import sleep
import base64
from pathlib import Path
options = webdriver.ChromeOptions()
def scrape_images(keyword, batch_size, headless=True):
if headless:
options.add_argument("--headless")
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
result_count = 0
driver = webdriver.Chrome(options=options)
driver.get(f"https://www.google.com/search?q={formatted_keyword}")
sleep(1)
list_items = driver.find_elements(By.CSS_SELECTOR, "div[role='listitem']")
list_items[1].click()
while result_count < batch_size:
driver.execute_script("window.scrollBy(0, 300);")
sleep(1)
img_tags = driver.find_elements(By.CSS_SELECTOR, "g-img > img")
for img_tag in img_tags:
src = img_tag.get_attribute("src")
if not src or not src.startswith("data:image/"):
continue
base64_binary = src.split("base64,")[-1]
mime_type = src.split(";")[0].split(":")[1]
file_extension = mime_type.split("/")[-1]
if file_extension == "gif":
continue
alt_text = img_tag.get_attribute("alt") or "image"
filename = f"{alt_text}-{result_count}.{file_extension}"
image_binary = base64.b64decode(base64_binary)
output_path = output_folder.joinpath(filename)
with open(output_path, "wb") as file:
file.write(image_binary)
result_count+=1
print(f"Saved: {filename}")
driver.quit()
if __name__ == "__main__":
scrape_images("linux penguin", 100)
- Par défaut, le mode
headless
est défini surTrue
. Si l’utilisateur lui donne la valeurFalse
, cela lancera l’interface du navigateur et vous la verrez à l’écran. Ceci est utile à des fins de débogage. - Nous créons un mot-clé formaté (
formatted_keyword
) et un nom de dossier (folder_name
) en supprimant les espaces de notre mot-clé (keyword
). Cela nous permet de stocker les fichiers sans problème. - Nous lançons notre navigateur avec
webdriver.Chrome(options=options)
. driver.get(f"https://www.google.com/search?q={mot_clé_formaté}")
nous amène aux résultats de recherche Google pour lemot clé
que nous avons indiqué.- Nous devons maintenant cliquer sur l’onglet des images. Pour ce faire, nous recherchons tous les éléments «
div
» ayant le rôle «listitem
». Avec «list_items[1].click()
» , nous cliquons sur le deuxième élément, l’onglet images. - Nous utilisons une boucle
while
pour exécuter notre code de scraping encore et encore jusqu’à ce que nous ayons trouvé toutes les images que nous voulions. driver.execute_script("window.scrollBy(0, 300);")
exécute JavaScript pour faire défiler la page de 300 pixels vers le bas. Après avoir fait défilé la page, nous faisons une petite pause («sleep()
») pendant une seconde, pour laisser au contenu le temps de se charger.driver.find_elements(By.CSS_SELECTOR, "g-img > img")
permet de trouver toutes les balises «img
» qui sont imbriquées dans une «g-img
».- Ensuite, nous itérons à travers les éléments
img
que nous avons trouvés. - Si l’
img
ne commence pas par «data:image/
», nous utilisons «continue
» pour l’ignorer. Sinon, nous extrayons son attribut «src
». - Nous utilisons un découpage de chaîne de base pour extraire le code binaire codé et l’extension du fichier (JPEG, PNG, etc.). Si l’extension est « GIF », nous l’ignorons. Pour une raison quelconque, les GIF ne s’affichent pas lorsque nous les écrivons dans un fichier.
base64.b64decode(base64_binary)
décode notre image en binaire lisible par la machine.
Si vous exécutez le code, vous verrez apparaître un nouveau dossier dans votre dossier de projet. Il doit être rempli d’images.
Pendez à utiliser les données de Bright Data
Notre API SERP analyse les images Google pour que vous n’ayez pas à le faire. Il trouve même les métadonnées de l’image, de sorte que nos images auront des noms réels. Bien entendu, l’API est entièrement modulable et peut traiter un très grand nombre de demandes.
Tout d’abord, inscrivez-vous à notre SERP API.
Lorsque vous êtes prêt, terminez la création de la zone.
Sous Détails d’accès, vous verrez vos informations d’identification.
Copiez et collez le code ci-dessous dans un fichier Python. Remplacez les informations d’identification dans « proxy_auth
» par les vôtres et vous pouvez commencer.
import requests
import base64
from pathlib import Path
import json
proxy = "brd.superproxy.io:33335"
proxy_auth = "brd-customer-<your-customer-id>-zone-<your-zone-name>:<your-zone-password>"
proxy_url = f"http://{proxy_auth}@{proxy}"
def scrape_images(keyword):
formatted_keyword = keyword.replace(" ", "+")
folder_name = keyword.replace(" ", "-")
output_folder = Path(f"serp-results-{folder_name}")
output_folder.mkdir(parents=True, exist_ok=True)
url = f"https://www.google.com/search?q={formatted_keyword}&tbm=isch&brd_json=1"
response = requests.get(
url,
proxies={"http": proxy_url, "https": proxy_url},
verify=False
)
images = response.json()["images"]
result_count = 0
for image in images:
image_binary = base64.b64decode(image["source_logo"].split("base64,")[-1])
title = image["title"].replace(" ", "-").replace("/", "").strip(".")
file_extension = image["source_logo"].split(";")[0].split(":")[1].split("/")[-1]
if file_extension == "gif":
continue
filename = f"{title}.{file_extension}"
with open(output_folder.joinpath(filename), "wb") as file:
file.write(image_binary)
print(f"Saved: {filename}")
if __name__ == "__main__":
scrape_images("linux penguin")
Si vous exécutez le code, vous obtiendrez à nouveau de nombreuses images, mais cette fois-ci, elles auront chacune un nom.
Conclusion
En conclusion, l’extraction d’images à partir de Google est un peu comme essayer de résoudre un puzzle sans en connaître toutes les pièces. Notre Google Images API trouve les métadonnées et élimine le besoin de Selenium !
Si vous avez besoin de récupérer des images d’autres sources, nous avons également une Instagram Image API, Shutterstock Scraperet différents ensembles de données structurés. Inscrivez-vous maintenant et trouvez le produit idéal pour vos besoins, y compris un essai gratuit !
Aucune carte de crédit requise