API d'archivage

Accédez aux vastes collections mises en cache de Bright Data, offrant une découverte HTML rentable à partir de milliards de domaines. Avec plus d’un milliard de pages ajoutées chaque semaine, restez à la pointe de la technologie grâce aux dernières données disponibles. Faites l’expérience d’une recherche de données transparente et efficace comme jamais auparavant.

S'adresser à un expert
archive api
  • Découvrez de nouvelles sources grâce à des métadonnées filtrables
  • Cibler précisément la modalité, la langue ou le domaine.
  • Constituez des jeux de données personnalisés pour des besoins continus ou ponctuels.
  • Services d'annotation et d'étiquetage disponibles en option
TRUSTED BY 20,000+ CUSTOMERS WORLDWIDE

Accéder à des données web à grande échelle

L'API d'archivage de Bright Data offre des données en temps réel, mises à jour en continu, avec des options de filtrage et de livraison avancées.

data collection

Collecte de données

Capture en continu les données publiques du web en temps réel, fournissant des résultats aussi récents que "maintenant".

data volume

Volume de données

17,5 PB collectés en 8 mois, couvrant 118 milliards de pages avec ~1 PB et 2 milliards d'URL uniques ajoutés par semaine.

delivery

Filtrage et diffusion

Plateforme complète de découverte et de diffusion - filtre par catégorie, domaine, langue, date, etc. Livraison via Amazon S3 ou webhook.
coverage

Couverture et pertinence

Archive API se concentre sur les données de sites web pertinentes et de grande valeur, en se basant sur les besoins réels des entreprises en matière de scraping.

Archive API Playground

Recherche d'archive web de démonstration
Découvrez comment fonctionne notre API d'archive web avec des domaines d'exemple
Domaines de démonstration
example.com
Plage horaire
Âge maximum : 1 jour
Résultats d'archive
Les résultats de votre archive apparaîtront ici
Cliquez sur "Afficher les données d'archive de démonstration" pour voir un exemple de sortie ou configurer des filtres pour rechercher
            
          
Exemples de code
                
              

Prêt à intégrer l'API Web Archive ?

Commencez avec notre puissant API d'archive web. Accédez aux données web historiques avec notre infrastructure évolutive.

Prenez une part du Web avec Archive API

Récupérez des données dans des archives web d'une taille de l'ordre du pétaoctet et contenant des milliards de pages HTML. Découvrez des URL de vidéos et d'images, des textes en plus de 100 langues ou des SERP historiques.

structured

Structuré et propre

Données prétraitées avec des schémas cohérents, parfaites pour l'entraînement et l'inférence de modèles IA.

code examples

Exemples de codes

Des snippets Python, Node.js, cURL, PHP, Go, Java et Ruby prêts à l'emploi pour une intégration facile aux flux de travail de l'IA.

documentation

La documentation

Guides et carnets de notes complets pour ChatGPT, Claude et d'autres intégrations LLM.

                              # Pour lancer une recherche dans nos archives, utilisez le point de terminaison /search suivant. Point de terminaison : POST api.brightdata.com/webarchive/search

curl -X POST https://api.brightdata.com/webarchive/search 
  -H "Authorization : Bearer $API_KEY" 
  -H 'Content-Type : application/json' 
  --data '{"filters" : {"max_age" : "1d", "domain_whitelist" : ["example.com"]}}'
                              
                            
                              # Vérifier le statut d'une requête spécifique qui a été faite. Point final : GET api.brightdata.com/webarchive/search/

curl https://api.brightdata.com/webarchive/search/$SEARCH_ID 
  -H "Authorization : Bearer $API_KEY"
                              
                            
                              # Vérifiez l'état de toutes les recherches en cours. Point final : GET api.brightdata.com/webarchive/searches

curl https://api.brightdata.com/webarchive/searches 
  -H "Authorization : Bearer $API_KEY"
                              
                            

Cas d'utilisation de l'API d'archivage

Suivez les modifications de contenu et analysez les tendances à travers des milliards d'instantanés Web historiques. Accédez à 17,5 Po de données mises en cache provenant de 40 millions de domaines pour des études longitudinales, des analyses compétitives et des renseignements sur le marché sans avoir à recommencer l'exploration.
Parlez à un expert
deep research
Créez instantanément des index de recherche complets à partir de contenus pré-renseignés et rendus JS provenant de millions de domaines. Filtrez par catégorie, langue et date pour créer des index ciblés tout en réduisant les coûts d'infrastructure.
Parlez à un expert
Entraînez les modèles IA avec 17,5 Po de données web propres. Obtenez un contenu frais et de haute qualité provenant de diverses sources, avec 1 Po ajouté chaque semaine, livré dans des formats optimisés pour les applications d'apprentissage automatique.
Parlez à un expert
data_enrichment_for_ai_models

Recherche transparente de données dans des milliards de domaines

Découvrez et récupérez facilement les URL des vidéos, des images, des fichiers audio et autres.

FLEXIBLE

Infrastructure d'entreprise

La plateforme de Bright Data alimente plus de 20,000+ entreprises dans le monde entier, offrant une tranquillité d’esprit avec un temps de disponibilité de 99,99 %, l’accès à 150M+ IP d’utilisateurs réels couvrant 195 pays.

ÉCHÉANCIER

Recherche, collecte et traitement avancés des données

Bénéficiez d’un contrôle et d’une flexibilité maximum sans maintenir d’infrastructure de proxy et de déblocage. Récupérez facilement des données à partir de n’importe quelle géolocalisation tout en évitant les CAPTCHA et les blocages.

STABLE

Adapté à votre flux de travail

Obtenez des données structurées et validées grâce à des options de livraison et d’intégration personnalisées, y compris des rapports, des tableaux de bord et des analyses sur mesure, pour des recherches historiques et plusieurs sites web.

compliance
CONFORME

Conformité à la norme industrielle

Nos pratiques en matière de confidentialité sont conformes aux lois sur la protection des données, y compris le cadre réglementaire de l’UE en matière de protection des données, le GDPR et le CCPA – en respectant les demandes d’exercice des droits à la vie privée et plus encore.

Commencez à collecter des données web. Sans effort.

FAQ sur l'API des archives

Archive API est un référentiel massif, en expansion continue et mis en cache par Bright Data, conçu pour capturer et fournir des données web publiques à l'échelle.

Il fournit des pages web complètes et des métadonnées, ce qui le rend idéal pour l'entraînement IA, l'apprentissage automatique et l'analyse de données à grande échelle.

Contrairement aux scrawls web traditionnels, Archive API donne la priorité à la pertinence, à la fraîcheur et à la facilité d'utilisation, en vous donnant accès aux parties les plus importantes d'internet telles qu'elles sont scrapées quotidiennement.

L'API Archive de Bright Data a déjà collecté 17,5 Po de données, couvrant 28 milliards d'URL uniques de 40 millions de domaines, rien que dans les 8 premiers mois de son lancement.

Nous continuons à ajouter ~1 PB de nouvelles données chaque semaine, aux côtés de ~2 milliards d'URL uniques, ce qui fait d'Archive le plus grand référentiel de données web à jour disponible - parfait pour l'IA et les applications axées sur les données.

Vous pouvez commencer à accéder aux données immédiatement grâce à notre API Archive. L'API vous permet de rechercher, d'extraire et de filtrer des instantanés de données d'Archive de manière transparente et efficace.

Données des 3 derniers jours : Il faut compter entre quelques minutes et quelques heures pour obtenir les données (en fonction de la taille de l'instantané).

Données datant de plus de 3 jours : Le traitement et la livraison prendront de quelques heures à 3 jours (en fonction de la taille de l'instantané).

Archive propose deux options de livraison afin de garantir une intégration transparente dans vos flux de travail existants :

Bac Amazon S3 : Vos instantanés de données sont livrés directement dans votre bac S3.

Webhook : Récupéré via un webhook pour une intégration en temps réel dans vos systèmes.

Absolument ! L'API d'archivage permet de filtrer par catégorie, domaines, date, langues et pays avant de récupérer les données, ce qui garantit que vous n'obtenez que ce dont vous avez besoin.