API d'archivage
Accédez aux vastes collections mises en cache de Bright Data, offrant une découverte HTML rentable à partir de milliards de domaines. Avec plus d’un milliard de pages ajoutées chaque semaine, restez à la pointe de la technologie grâce aux dernières données disponibles. Faites l’expérience d’une recherche de données transparente et efficace comme jamais auparavant.
- Découvrez de nouvelles sources grâce à des métadonnées filtrables
- Cibler précisément la modalité, la langue ou le domaine.
- Constituez des jeux de données personnalisés pour des besoins continus ou ponctuels.
- Services d'annotation et d'étiquetage disponibles en option
Approuvé par 20,000+ clients dans le monde
Accéder à des données web à grande échelle
L'API d'archivage de Bright Data offre des données en temps réel, mises à jour en continu, avec des options de filtrage et de livraison avancées.
Collecte de données
Capture en continu les données publiques du web en temps réel, fournissant des résultats aussi récents que "maintenant".
Volume de données
17,5 PB collectés en 8 mois, couvrant 118 milliards de pages avec ~1 PB et 2 milliards d'URL uniques ajoutés par semaine.
Filtrage et diffusion
Couverture et pertinence
Archive API Playground
Prêt à intégrer l'API Web Archive ?
Prenez une part du Web avec Archive API
Récupérez des données dans des archives web d'une taille de l'ordre du pétaoctet et contenant des milliards de pages HTML. Découvrez des URL de vidéos et d'images, des textes en plus de 100 langues ou des SERP historiques.
Structuré et propre
Données prétraitées avec des schémas cohérents, parfaites pour l'entraînement et l'inférence de modèles IA.
Exemples de codes
Des snippets Python, Node.js, cURL, PHP, Go, Java et Ruby prêts à l'emploi pour une intégration facile aux flux de travail de l'IA.
La documentation
Guides et carnets de notes complets pour ChatGPT, Claude et d'autres intégrations LLM.
# Pour lancer une recherche dans nos archives, utilisez le point de terminaison /search suivant. Point de terminaison : POST api.brightdata.com/webarchive/search
curl -X POST https://api.brightdata.com/webarchive/search
-H "Authorization : Bearer $API_KEY"
-H 'Content-Type : application/json'
--data '{"filters" : {"max_age" : "1d", "domain_whitelist" : ["example.com"]}}'
# Vérifier le statut d'une requête spécifique qui a été faite. Point final : GET api.brightdata.com/webarchive/search/
curl https://api.brightdata.com/webarchive/search/$SEARCH_ID
-H "Authorization : Bearer $API_KEY"
# Vérifiez l'état de toutes les recherches en cours. Point final : GET api.brightdata.com/webarchive/searches
curl https://api.brightdata.com/webarchive/searches
-H "Authorization : Bearer $API_KEY"
Cas d'utilisation de l'API d'archivage
Recherche transparente de données dans des milliards de domaines
Découvrez et récupérez facilement les URL des vidéos, des images, des fichiers audio et autres.

Infrastructure d'entreprise
La plateforme de Bright Data alimente plus de 20,000+ entreprises dans le monde entier, offrant une tranquillité d’esprit avec un temps de disponibilité de 99,99 %, l’accès à 150M+ IP d’utilisateurs réels couvrant 195 pays.

Recherche, collecte et traitement avancés des données
Bénéficiez d’un contrôle et d’une flexibilité maximum sans maintenir d’infrastructure de proxy et de déblocage. Récupérez facilement des données à partir de n’importe quelle géolocalisation tout en évitant les CAPTCHA et les blocages.

Adapté à votre flux de travail
Obtenez des données structurées et validées grâce à des options de livraison et d’intégration personnalisées, y compris des rapports, des tableaux de bord et des analyses sur mesure, pour des recherches historiques et plusieurs sites web.
Conformité à la norme industrielle
Nos pratiques en matière de confidentialité sont conformes aux lois sur la protection des données, y compris le cadre réglementaire de l’UE en matière de protection des données, le GDPR et le CCPA – en respectant les demandes d’exercice des droits à la vie privée et plus encore.
Commencez à collecter des données web. Sans effort.
FAQ sur l'API des archives
Qu'est-ce que l'API ?
Archive API est un référentiel massif, en expansion continue et mis en cache par Bright Data, conçu pour capturer et fournir des données web publiques à l'échelle.
Il fournit des pages web complètes et des métadonnées, ce qui le rend idéal pour l'entraînement IA, l'apprentissage automatique et l'analyse de données à grande échelle.
Contrairement aux scrawls web traditionnels, Archive API donne la priorité à la pertinence, à la fraîcheur et à la facilité d'utilisation, en vous donnant accès aux parties les plus importantes d'internet telles qu'elles sont scrapées quotidiennement.
Quelle est la quantité de données disponibles dans l'API d'archivage de Bright Data ?
L'API Archive de Bright Data a déjà collecté 17,5 Po de données, couvrant 28 milliards d'URL uniques de 40 millions de domaines, rien que dans les 8 premiers mois de son lancement.
Nous continuons à ajouter ~1 PB de nouvelles données chaque semaine, aux côtés de ~2 milliards d'URL uniques, ce qui fait d'Archive le plus grand référentiel de données web à jour disponible - parfait pour l'IA et les applications axées sur les données.
En combien de temps puis-je accéder aux données d'archives ?
Vous pouvez commencer à accéder aux données immédiatement grâce à notre API Archive. L'API vous permet de rechercher, d'extraire et de filtrer des instantanés de données d'Archive de manière transparente et efficace.
Données des 3 derniers jours : Il faut compter entre quelques minutes et quelques heures pour obtenir les données (en fonction de la taille de l'instantané).
Données datant de plus de 3 jours : Le traitement et la livraison prendront de quelques heures à 3 jours (en fonction de la taille de l'instantané).
Comment mes données peuvent-elles être livrées ?
Archive propose deux options de livraison afin de garantir une intégration transparente dans vos flux de travail existants :
Bac Amazon S3 : Vos instantanés de données sont livrés directement dans votre bac S3.
Webhook : Récupéré via un webhook pour une intégration en temps réel dans vos systèmes.
Puis-je filtrer les données d'Archive pour n'obtenir que ce dont j'ai besoin ?
Absolument ! L'API d'archivage permet de filtrer par catégorie, domaines, date, langues et pays avant de récupérer les données, ce qui garantit que vous n'obtenez que ce dont vous avez besoin.