Archive API Pricing
Power advanced pipelines for model training and web search with the world's largest web data repository
Trusted by 20,000+ customers worldwide
Customer favorite features
- Référentiel à l'échelle du pétaoctet
- Pages HTML complètes et métadonnées
- Filtrage et recherche avancés
- ~2,5 Po ajoutés quotidiennement
- Texte, images, vidéo et audio
- Options de livraison flexibles
- Plus de 5 To de jetons de texte ajoutés chaque jour
- Accès API en priorité
- Données prêtes pour l’IA
- Plus de 2,5 milliards d'URL d'images/vidéos ajoutées chaque jour
- Sans maintenance
- Disponibilité de 99,99 % + assistance 24 h/24, 7 j/7
Paiements avec AWS Marketplace
Tirez parti de vos achats pour respecter vos engagements AWS et bénéficiez d’un processus d’approvisionnement et de facturation simplifié, le tout en un seul endroit. Profitez des contrôles de validation et de conformité rigoureux d’AWS pour ses partenaires.
Conformité à la pointe du secteur
Nos pratiques en matière de confidentialité sont conformes aux lois sur la protection des données, y compris le cadre réglementaire européen sur la protection des données, le RGPD et le CCPA, et respectent les demandes d’exercice des droits à la vie privée, entre autres.
FAQ sur l'API d'archivage
Qu'est-ce que l'API Archive ?
Archive API est un immense référentiel mis en cache et en constante expansion, développé par Bright Data, conçu pour capturer et fournir des données web publiques à grande échelle. Il fournit des pages web complètes et des métadonnées, ce qui le rend idéal pour la formation en IA, l'apprentissage automatique et l'analyse de données à grande échelle. Contrairement aux crawlers web traditionnels, Archive API donne la priorité à la pertinence, à l'actualité et à la facilité d'utilisation, vous donnant accès aux parties les plus importantes d'Internet, qui sont scrapées quotidiennement.
En combien de temps puis-je accéder aux données ?
Vous pouvez commencer à accéder immédiatement aux données via notre API Archive. L'API vous permet de rechercher, récupérer et filtrer de manière transparente et efficace des instantanés de données à partir d'Archive.
- Données des 3 derniers jours : le délai de livraison est de quelques minutes à quelques heures (selon la taille de l'instantané).
- Données datant de plus de 3 jours : le traitement et la livraison prendront de quelques heures à 3 jours (selon la taille de l'instantané).
Comment mes données peuvent-elles être livrées ?
Archive propose deux options de livraison pour garantir une intégration transparente dans vos flux de travail existants :
- Bucket Amazon S3: recevez votre instantané de données directement dans votre bucket S3.
- Webhook: récupéré via webhook pour une intégration en temps réel dans vos systèmes.
Puis-je filtrer les données de l'archive pour n'obtenir que ce dont j'ai besoin ?
Absolument ! L'API Archive permet de filtrer par catégorie, domaine, date, langue et pays avant de récupérer les données, ce qui vous garantit d'obtenir uniquement ce dont vous avez besoin.
Comment l'archive de Bright Data se compare-t-elle à Common Crawl ?
Lorsque vous travaillez avec des données web à grande échelle, la fraîcheur, la pertinence et l'accessibilité sont essentielles. Alors que Common Crawl fournit un aperçu historique général du web, l'API Archive de Bright Data offre des données en temps réel, mises à jour en continu, avec des options avancées de filtrage et de livraison. Voici une comparaison entre les deux :
| Fonctionnalité | Archive de Bright Data | Common Crawl |
| Collecte de données | Capture en continu les données Web publiques en temps réel, fournissant des résultats aussi récents que « maintenant ». | Exploration périodique du Web (pas en temps réel), mise à jour tous les mois ou tous les deux mois. Les données peuvent être obsolètes. |
| Volume de données | 17,5 Po collectés en 8 mois, couvrant 118 milliards de pages (28 milliards d'URL uniques provenant de 40 millions de domaines). Ajoute environ 2,5 Po et des milliards d'URL uniques par semaine. | 250 milliards de pages collectées en 18 ans. |
| Couverture et pertinence des sites web | Se concentre sur les données de sites web pertinentes et à forte valeur ajoutée, en fonction des besoins réels des entreprises en matière de scraping. | Explore sans distinction, y compris les pages obsolètes ou de mauvaise qualité. |
| Types de données | Pages web complètes (rendues en JS) | 98,6 % HTML et texte |
| Filtrage et livraison | Plateforme complète de découverte et de livraison - filtrage par catégorie, domaine, langue, date, etc. Livraison via Amazon S3 ou webhook. | Pas de filtrage ni de livraison intégrés. Nécessité de traiter manuellement d'énormes fichiers WARC bruts. |