Archive API Pricing

Power advanced pipelines for model training and web search with the world's largest web data repository

pay as you go plan icon
Pay as you go
$0.2 /1K HTMLs
Sans engagement
C'est parti !
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Historical data (+72 hours) starts at $1/1K HTMLs
2nd plan icon
ENTERPRISE
Contact us for a
personalized quote
Talk to a sales expert
Includes:
  • API access with advanced filtering (domains, categories, dates, languages, countries, paths)
  • Flexible delivery: AWS, GCP, Snowflake, Databricks and more
  • Standard support
  • Dedicated Account Manager
  • 24/7 premium support
  • SLA guarantees
  • Volume discounts for large-scale data needs
  • Custom integration support
  • Extended delivery options
* Volume discounts are available for large data volumes, long-term commitments, or multi-solution projects.
Nous acceptons ces méthodes de paiement:
AWS logoVous utilisez AWS ? Vous pouvez désormais payer avec AWS Marketplace
C'est parti !

Customer favorite features

  • Référentiel à l'échelle du pétaoctet
  • Pages HTML complètes et métadonnées
  • Filtrage et recherche avancés
  • ~2,5 Po ajoutés quotidiennement
  • Texte, images, vidéo et audio
  • Options de livraison flexibles
  • Plus de 5 To de jetons de texte ajoutés chaque jour
  • Accès API en priorité
  • Données prêtes pour l’IA
  • Plus de 2,5 milliards d'URL d'images/vidéos ajoutées chaque jour
  • Sans maintenance
  • Disponibilité de 99,99 % + assistance 24 h/24, 7 j/7
RATIONALISÉ

Paiements avec AWS Marketplace

Tirez parti de vos achats pour respecter vos engagements AWS et bénéficiez d’un processus d’approvisionnement et de facturation simplifié, le tout en un seul endroit. Profitez des contrôles de validation et de conformité rigoureux d’AWS pour ses partenaires.

CONFORME

Conformité à la pointe du secteur

Nos pratiques en matière de confidentialité sont conformes aux lois sur la protection des données, y compris le cadre réglementaire européen sur la protection des données, le RGPD et le CCPA, et respectent les demandes d’exercice des droits à la vie privée, entre autres.

FAQ sur l'API d'archivage

Archive API est un immense référentiel mis en cache et en constante expansion, développé par Bright Data, conçu pour capturer et fournir des données web publiques à grande échelle. Il fournit des pages web complètes et des métadonnées, ce qui le rend idéal pour la formation en IA, l'apprentissage automatique et l'analyse de données à grande échelle. Contrairement aux crawlers web traditionnels, Archive API donne la priorité à la pertinence, à l'actualité et à la facilité d'utilisation, vous donnant accès aux parties les plus importantes d'Internet, qui sont scrapées quotidiennement.

Vous pouvez commencer à accéder immédiatement aux données via notre API Archive. L'API vous permet de rechercher, récupérer et filtrer de manière transparente et efficace des instantanés de données à partir d'Archive.

  • Données des 3 derniers jours : le délai de livraison est de quelques minutes à quelques heures (selon la taille de l'instantané).
  • Données datant de plus de 3 jours : le traitement et la livraison prendront de quelques heures à 3 jours (selon la taille de l'instantané).

Archive propose deux options de livraison pour garantir une intégration transparente dans vos flux de travail existants :

  • Bucket Amazon S3: recevez votre instantané de données directement dans votre bucket S3.
  • Webhook: récupéré via webhook pour une intégration en temps réel dans vos systèmes.

Absolument ! L'API Archive permet de filtrer par catégorie, domaine, date, langue et pays avant de récupérer les données, ce qui vous garantit d'obtenir uniquement ce dont vous avez besoin.

Lorsque vous travaillez avec des données web à grande échelle, la fraîcheur, la pertinence et l'accessibilité sont essentielles. Alors que Common Crawl fournit un aperçu historique général du web, l'API Archive de Bright Data offre des données en temps réel, mises à jour en continu, avec des options avancées de filtrage et de livraison. Voici une comparaison entre les deux :

Fonctionnalité Archive de Bright Data Common Crawl
Collecte de données Capture en continu les données Web publiques en temps réel, fournissant des résultats aussi récents que « maintenant ». Exploration périodique du Web (pas en temps réel), mise à jour tous les mois ou tous les deux mois. Les données peuvent être obsolètes.
Volume de données 17,5 Po collectés en 8 mois, couvrant 118 milliards de pages (28 milliards d'URL uniques provenant de 40 millions de domaines). Ajoute environ 2,5 Po et des milliards d'URL uniques par semaine. 250 milliards de pages collectées en 18 ans.
Couverture et pertinence des sites web Se concentre sur les données de sites web pertinentes et à forte valeur ajoutée, en fonction des besoins réels des entreprises en matière de scraping. Explore sans distinction, y compris les pages obsolètes ou de mauvaise qualité.
Types de données Pages web complètes (rendues en JS) 98,6 % HTML et texte
Filtrage et livraison Plateforme complète de découverte et de livraison - filtrage par catégorie, domaine, langue, date, etc. Livraison via Amazon S3 ou webhook. Pas de filtrage ni de livraison intégrés. Nécessité de traiter manuellement d'énormes fichiers WARC bruts.

Vous ne savez pas exactement ce dont vous avez besoin ?