4.6 sur cinq étoiles d'évaluation sur Trustpilot

4.8 sur 5 étoiles d'évaluation sur Capterra

API d'archivage

Accédez aux vastes collections mises en cache de Bright Data, offrant une découverte HTML rentable à partir de milliards de domaines. Avec plus d’un milliard de pages ajoutées chaque semaine, restez à la pointe de la technologie grâce aux dernières données disponibles. Faites l’expérience d’une recherche de données transparente et efficace comme jamais auparavant.

S'adresser à un expert

Découvrez de nouvelles sources grâce à des métadonnées filtrables
Cibler précisément la modalité, la langue ou le domaine.
Constituez des jeux de données personnalisés pour des besoins continus ou ponctuels.
Services d'annotation et d'étiquetage disponibles en option

Approuvé par 20,000+ clients dans le monde entier

Accéder à des données web à grande échelle

L'API d'archivage de Bright Data offre des données en temps réel, mises à jour en continu, avec des options de filtrage et de livraison avancées.

Collecte de données

Capture en continu les données publiques du web en temps réel, fournissant des résultats aussi récents que "maintenant".

Volume de données

17,5 PB collectés en 8 mois, couvrant 118 milliards de pages avec ~1 PB et 2 milliards d'URL uniques ajoutés par semaine.

Filtrage et diffusion

Plateforme complète de découverte et de diffusion - filtre par catégorie, domaine, langue, date, etc. Livraison via Amazon S3 ou webhook.

Couverture et pertinence

Archive API se concentre sur les données de sites web pertinentes et de grande valeur, en se basant sur les besoins réels des entreprises en matière de scraping.

Archive API Playground

Recherche d'archive web de démonstration

Découvrez comment fonctionne notre API d'archive web avec des domaines d'exemple

Domaines de démonstration

example.com

Plage horaire

Âge maximum : 1 jour

Résultats d'archive

Les résultats de votre archive apparaîtront ici

Cliquez sur "Afficher les données d'archive de démonstration" pour voir un exemple de sortie ou configurer des filtres pour rechercher

Exemples de code

Prêt à intégrer l'API SERP ?

Commencez avec notre puissant API SERP. Accédez aux résultats de recherche en temps réel de Google, Bing, et plus.

Commencez gratuitement Documentation Postman

Prenez une part du Web avec Archive API

Récupérez des données dans des archives web d'une taille de l'ordre du pétaoctet et contenant des milliards de pages HTML. Découvrez des URL de vidéos et d'images, des textes en plus de 100 langues ou des SERP historiques.

Structuré et propre

Données prétraitées avec des schémas cohérents, parfaites pour l'entraînement et l'inférence de modèles IA.

Exemples de codes

Des snippets Python, Node.js, cURL, PHP, Go, Java et Ruby prêts à l'emploi pour une intégration facile aux flux de travail de l'IA.

La documentation

Guides et carnets de notes complets pour ChatGPT, Claude et d'autres intégrations LLM.

                              # Pour lancer une recherche dans nos archives, utilisez le point de terminaison /search suivant. Point de terminaison : POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization : Bearer $API_KEY" 
  -H 'Content-Type : application/json' 
  --data '{"filters" : {"max_age" : "1d", "domain_whitelist" : ["example.com"]}}'

                              # Vérifier le statut d'une requête spécifique qui a été faite. Point final : GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization : Bearer $API_KEY"

                              # Vérifiez l'état de toutes les recherches en cours. Point final : GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization : Bearer $API_KEY"

Cas d'utilisation de l'API d'archivage

Suivez les modifications de contenu et analysez les tendances à travers des milliards d'instantanés Web historiques. Accédez à 17,5 Po de données mises en cache provenant de 40 millions de domaines pour des études longitudinales, des analyses compétitives et des renseignements sur le marché sans avoir à recommencer l'exploration.

Parlez à un expert

Créez instantanément des index de recherche complets à partir de contenus pré-renseignés et rendus JS provenant de millions de domaines. Filtrez par catégorie, langue et date pour créer des index ciblés tout en réduisant les coûts d'infrastructure.

Parlez à un expert

Entraînez les modèles IA avec 17,5 Po de données web propres. Obtenez un contenu frais et de haute qualité provenant de diverses sources, avec 1 Po ajouté chaque semaine, livré dans des formats optimisés pour les applications d'apprentissage automatique.

Parlez à un expert

Recherche transparente de données dans des milliards de domaines

Découvrez et récupérez facilement les URL des vidéos, des images, des fichiers audio et autres.

FLEXIBLE

Infrastructure d'entreprise

La plateforme de Bright Data alimente plus de 20,000+ entreprises dans le monde entier, offrant une tranquillité d’esprit avec un temps de disponibilité de 99,99 %, l’accès à 400M+ IP d’utilisateurs réels couvrant 195 pays.

ÉCHÉANCIER

Recherche, collecte et traitement avancés des données

Bénéficiez d’un contrôle et d’une flexibilité maximum sans maintenir d’infrastructure de proxy et de déblocage. Récupérez facilement des données à partir de n’importe quelle géolocalisation tout en évitant les CAPTCHA et les blocages.

STABLE

Adapté à votre flux de travail

Obtenez des données structurées et validées grâce à des options de livraison et d’intégration personnalisées, y compris des rapports, des tableaux de bord et des analyses sur mesure, pour des recherches historiques et plusieurs sites web.

CONFORME

Conformité à la norme industrielle

Nos pratiques en matière de confidentialité sont conformes aux lois sur la protection des données, y compris le cadre réglementaire de l’UE en matière de protection des données, le GDPR et le CCPA – en respectant les demandes d’exercice des droits à la vie privée et plus encore.

Commencez à collecter des données web. Sans effort.

Parlez à un expert

FAQ sur l'API des archives

Qu'est-ce que l'API ?

Archive API est un référentiel massif, en expansion continue et mis en cache par Bright Data, conçu pour capturer et fournir des données web publiques à l'échelle.

Il fournit des pages web complètes et des métadonnées, ce qui le rend idéal pour l'entraînement IA, l'apprentissage automatique et l'analyse de données à grande échelle.

Contrairement aux scrawls web traditionnels, Archive API donne la priorité à la pertinence, à la fraîcheur et à la facilité d'utilisation, en vous donnant accès aux parties les plus importantes d'internet telles qu'elles sont scrapées quotidiennement.

Quelle est la quantité de données disponibles dans l'API d'archivage de Bright Data ?

L'API Archive de Bright Data a déjà collecté 17,5 Po de données, couvrant 28 milliards d'URL uniques de 40 millions de domaines, rien que dans les 8 premiers mois de son lancement.

Nous continuons à ajouter ~1 PB de nouvelles données chaque semaine, aux côtés de ~2 milliards d'URL uniques, ce qui fait d'Archive le plus grand référentiel de données web à jour disponible - parfait pour l'IA et les applications axées sur les données.

En combien de temps puis-je accéder aux données d'archives ?

Vous pouvez commencer à accéder aux données immédiatement grâce à notre API Archive. L'API vous permet de rechercher, d'extraire et de filtrer des instantanés de données d'Archive de manière transparente et efficace.

Données des 3 derniers jours : Il faut compter entre quelques minutes et quelques heures pour obtenir les données (en fonction de la taille de l'instantané).

Données datant de plus de 3 jours : Le traitement et la livraison prendront de quelques heures à 3 jours (en fonction de la taille de l'instantané).

Comment mes données peuvent-elles être livrées ?

Archive propose deux options de livraison afin de garantir une intégration transparente dans vos flux de travail existants :

Bac Amazon S3 : Vos instantanés de données sont livrés directement dans votre bac S3.

Webhook : Récupéré via un webhook pour une intégration en temps réel dans vos systèmes.

Puis-je filtrer les données d'Archive pour n'obtenir que ce dont j'ai besoin ?

Absolument ! L'API d'archivage permet de filtrer par catégorie, domaines, date, langues et pays avant de récupérer les données, ce qui garantit que vous n'obtenez que ce dont vous avez besoin.