Boostez votre scraper de navigateur sans tête
Avantages de Scraping Browser
Réduire les frais d’infrastructure
Configuration et mise à l’échelle automatique de l’environnement du navigateur via une API unique, pour un nombre illimité de sessions simultanées et du scraping en continu
Augmentation des taux de réussite
Vous n’aurez plus à créer des patchs de déverrouillage pour continuer à accéder à n’importe quelle donnée web publique grâce à un déverrouilleur intégré et à un pool d’adresses IP résidentielles très vaste
Augmentation de la productivité des développeurs
Vos développeurs pourront se concentrer sur l’essentiel en exécutant vos scripts existants dans un cloud hybride avec une seule ligne de code, les libérant ainsi des opérations de scraping de bas niveau
Infrastructure de navigateur à échelle automatique
Connectez vos scripts de scraping interactifs et multi-étapes à un environnement de navigateur hybride, offrant un nombre illimité de sessions simultanées à l’aide d’une seule ligne de code
Profitez du déverrouillage autonome
Browser Fingerprinting
Émule des navigateurs d’utilisateurs véritables pour simuler une expérience humaine
Résolution de CAPTCHA
Analyse et résout les CAPTCHA et les tests de type défi-réponse
Gère des agents utilisateurs spécifiques
Imite automatiquement différents types de navigateurs et d’appareils
Définit les en-têtes de référence
Simule le trafic provenant de sites Web populaires ou de confiance
Gère les cookies
Empêche les blocages potentiels imposés par des facteurs liés aux cookies
Réessais automatiques et rotation des adresses IP
Réessaie continuellement les requêtes et fait alterner les adresses IP, en arrière-plan
Couverture géographique mondiale
Accède au contenu localisé depuis n'importe quel pays, ville, région/département ou ASN
Rendu JavaScript
Extrait des données de sites Web qui s’appuient sur des éléments dynamiques
Validations de l’intégrité des données
Garantit l’exactitude, la cohérence et la fiabilité des données
Pool hyper-extensif d’adresses IP réelles
Accédez au web comme si vous étiez un utilisateur lambda grâce à plus de 72 millions d’adresses IP résidentielles d’origine éthique, une couverture de 195 pays et des API pour une configuration et une gestion avancées
const pw = require('playwright');
const SBR_CDP = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222';
async function main() {
console.log('Connecting to Scraping Browser...');
const browser = await pw.chromium.connectOverCDP(SBR_CDP);
try {
const page = await browser.newPage();
console.log('Connected! Navigating to https://example.com...');
await page.goto('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await page.content();
console.log(html);
} finally {
await browser.close();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
import asyncio
from playwright.async_api import async_playwright
SBR_WS_CDP = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222'
async def run(pw):
print('Connecting to Scraping Browser...')
browser = await pw.chromium.connect_over_cdp(SBR_WS_CDP)
try:
page = await browser.new_page()
print('Connected! Navigating to https://example.com...')
await page.goto('https://example.com')
print('Navigated! Scraping page content...')
html = await page.content()
print(html)
finally:
await browser.close()
async def main():
async with async_playwright() as playwright:
await run(playwright)
if __name__ == '__main__':
asyncio.run(main())
const puppeteer = require('puppeteer-core');
const SBR_WS_ENDPOINT = 'wss://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9222';
async function main() {
console.log('Connecting to Scraping Browser...');
const browser = await puppeteer.connect({
browserWSEndpoint: SBR_WS_ENDPOINT,
});
try {
const page = await browser.newPage();
console.log('Connected! Navigating to https://example.com...');
await page.goto('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await page.content();
console.log(html)
} finally {
await browser.close();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
const { Builder, Browser } = require('selenium-webdriver');
const SBR_WEBDRIVER = 'https://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9515';
async function main() {
console.log('Connecting to Scraping Browser...');
const driver = await new Builder()
.forBrowser(Browser.CHROME)
.usingServer(SBR_WEBDRIVER)
.build();
try {
console.log('Connected! Navigating to https://example.com...');
await driver.get('https://example.com');
console.log('Navigated! Scraping page content...');
const html = await driver.getPageSource();
console.log(html);
} finally {
driver.quit();
}
}
main().catch(err => {
console.error(err.stack || err);
process.exit(1);
});
from selenium.webdriver import Remote, ChromeOptions
from selenium.webdriver.chromium.remote_connection import ChromiumRemoteConnection
SBR_WEBDRIVER = 'https://brd-customer-CUSTOMER_ID-zone-ZONE_NAME:[email protected]:9515'
def main():
print('Connecting to Scraping Browser...')
sbr_connection = ChromiumRemoteConnection(SBR_WEBDRIVER, 'goog', 'chrome')
with Remote(sbr_connection, options=ChromeOptions()) as driver:
print('Connected! Navigating to https://example.com...')
driver.get('https://example.com')
print('Navigated! Scraping page content...')
html = driver.page_source
print(html)
if __name__ == '__main__':
main()
Scraping dynamique pour les développeurs
- Exécutez vos scripts Puppeteer, Selenium ou Playwright
- Personnalisez les flux de travail de vos proxies résidentiels via l’API
- Dépannage et surveillance à l’aide de Chrome DevTools
- Suppression du travail de maintenance de déblocage
Compatible avec Chrome DevTools
Utilisez le débogueur Chrome DevTools pour contrôler et dépanner les performances de votre Scraping Browser
Tarification de Scraping Browser
Payer avec AWS Marketplace
Rationalisez les paiements avec AWS Marketplace, en améliorant l’efficacité de l’approvisionnement et de la facturation. Utilisez les engagements AWS existants et bénéficiez des promotions AWS
Assistance 24h/24 et 7j/7
Bénéficiez d’une assistance d’experts 24 heures sur 24 qui vous aideront à résoudre rapidement vos problèmes afin de garantir la qualité des données récupérées. Obtenez une visibilité en temps réel de l’état du réseau pour une transparence totale
FAQ
Qu’est-ce que Scraping Browser ?
Scraping Browser fonctionne comme d’autres navigateurs automatisés. Il est contrôlé par des API de haut niveau comme Puppeteer et Playwright, mais c’est le seul navigateur doté de capacités intégrées de déblocage de sites web. Scraping Browser gère automatiquement toutes les opérations de déblocage de sites web, y compris : la résolution des CAPTCHA, l’empreinte digitale du navigateur, les tentatives automatiques, la sélection des en-têtes, les cookies, le rendu JavaScript, et bien plus encore, afin que vous puissiez gagner du temps et économiser des ressources.
Quand dois-je utiliser un navigateur pour le scraping ?
Pour scraper des données, les développeurs utilisent des navigateurs automatisés lorsque le rendu JavaScript d’une page ou des interactions avec un site web sont nécessaires (survol, changement de page, clics, captures d’écran, etc.) En outre, les navigateurs sont utiles pour les projets de scraping de données à grande échelle, lorsqu’il faut cibler de nombreuses pages simultanément.
Scraping Browser est-il un navigateur « headless » ou « headfull » ?
Scraping Browser est un navigateur GUI (également appelé « headfull »), avec une interface utilisateur graphique. Cependant, les développeurs peuvent aussi utiliser Scraping Browser en mode « sans tête », en interagissant avec lui par le biais d’une API comme Puppeteer ou Playwright. Scraping Browser est aussi ouvert en tant que navigateur GUI sur l’infrastructure de Bright Data.
Quelle est la différence entre un navigateur « headfull » et un navigateur « headless » pour le scraping ?
Lorsqu’ils choisissent un navigateur automatisé, les développeurs peuvent opter pour un navigateur « headless » (sans tête) ou un navigateur « headfull » (doté d’une interface graphique). Un navigateur « headless » n’a donc pas d’interface graphique. Combinés avec un proxy, les navigateurs « headless » peuvent être utilisés pour scraper des données, mais les logiciels de protection contre les robots peuvent facilement les détecter. Cela complique la tâche de scraping à grande échelle. Les navigateurs GUI, comme Scraping Browser (qui sont donc « headfull »), utilisent une interface utilisateur graphique. Les logiciels de détection des bots ont plus de difficultés à détecter les navigateurs GUI.
Pourquoi Scraping Browser est-il meilleur que Headless Chrome ou Selenium web scraping Python ?
Scraping Browser est livré avec une fonction intégrée de déverrouillage de site web qui gère automatiquement le déblocage à votre place. Les navigateurs de scraping utilisent un déverrouillage automatisé et peuvent être connectés aux serveurs de Bright Data. Ils conviennent donc parfaitement au développement de projets de scraping de données web sans nécessiter d’infrastructure importante.
Scraping Browser est-il compatible avec le scraping de Puppeteer ?
Oui, Scraping Browser est entièrement compatible avec Puppeteer.
Le scraping de Playwright est-il compatible avec Scraping Browser ?
Oui, Scraping Browser est entièrement compatible avec Playwright.
Quand devrais-je utiliser Scraping Browser plutôt que d’autres solution de proxy de Bright Data ?
Scraping Browser est un navigateur automatisé optimisé pour le scraping de données, qui intègre la puissance des capacités de déverrouillage automatisé de Web Unlocker. Alors que Web Unlocker fonctionne avec des requêtes en une seule étape, il est préférable d’utiliser Scraping Browser pour interagir avec un site web afin d’en scraper les données. Scraping Browser convient également parfaitement à tous vos projets de récupération de données nécessitant l’utilisation d’un navigateur, une mise à l’échelle et une gestion automatisée de toutes les actions de déblocage du site web cible.