Data Firehose & Web Archive Pricing
Stream real-time public web records with Data Firehose, or access 90PB+ of cached pages with Web Archive.
Approuvé par 20,000+ clients dans le monde entier
Customer favorite features
- Référentiel à l'échelle du pétaoctet
- Pages HTML complètes & métadonnées
- Filtrage & recherche avancés
- ~2,5 Po ajoutés quotidiennement
- Texte, images, vidéo et audio
- Options de livraison flexibles
- 5T+ tokens texte ajoutés quotidiennement
- Accès API en priorité
- Données prêtes pour l'IA
- 2,5 milliards+ d'URL images/vidéos ajoutées quotidiennement
- Sans maintenance
- Disponibilité 99,99 % + support 24/7
Paiements via AWS Marketplace
Valorisez vos achats pour atteindre vos engagements AWS et profitez d’une gestion des achats et de la facturation simplifiée en un seul endroit. Bénéficiez des contrôles rigoureux de validation et de conformité d’AWS pour les partenaires.
Conformité leader du secteur
Nos pratiques de confidentialité sont conformes aux lois sur la protection des données, notamment le cadre réglementaire européen de protection des données, le RGPD et le CCPA – respectant les demandes d’exercice des droits à la vie privée et bien plus encore.
Vous ne savez pas ce dont vous avez besoin ?
Archive API FAQ
Quelle est la différence entre Data Firehose et Web Archive ?
Data Firehose fournit un flux continu en temps réel de données web actives au fur et à mesure de leur collecte (~1 milliard d'enregistrements ingérés quotidiennement), idéal pour la surveillance active, le suivi des prix et les pipelines d'entraînement IA en cours. Le Web Archive donne accès à un immense référentiel historique de plus de 624 milliards de pages web mises en cache (90 Po+), parfait pour la recherche approfondie, le backtesting et l'analyse longitudinale. De nombreuses équipes d'entreprise utilisent les deux : Firehose pour les signaux récents et Archive pour le contexte historique.
À quelle vitesse puis-je accéder aux données ?
Vous pouvez commencer à accéder aux données immédiatement via notre Data Firehose. L'API vous permet de rechercher, récupérer et filtrer les instantanés de données de manière fluide et efficace.
- Données des dernières 24 heures : la livraison prendra de quelques minutes à quelques heures (selon la taille de l'instantané)
- Données de plus d'1 jour : le traitement et la livraison prendront de quelques heures à 3 jours (selon la taille de l'instantané)
Comment mes données peuvent-elles être livrées ?
Archive propose deux options de livraison pour une intégration fluide dans vos flux de travail existants :
- Bucket Amazon S3 : recevez votre instantané de données directement dans votre bucket S3.
- Webhook : récupéré via webhook pour une intégration en temps réel dans vos systèmes.
Puis-je filtrer les données d'Archive pour n'obtenir que ce dont j'ai besoin ?
Absolument ! Data Firehose et l'Archive API permettent tous deux de filtrer par catégorie, domaines, date, langues et pays avant de récupérer les données, vous garantissant d'obtenir uniquement ce dont vous avez besoin.
Y a-t-il des frais supplémentaires pour différentes méthodes de livraison ?
Non, les méthodes de livraison standard sont incluses dans votre coût. Pour Data Firehose et Web Archive, vous pouvez choisir de recevoir vos données directement dans un bucket Amazon S3 ou via Webhook pour une intégration fluide dans vos systèmes existants. Data Firehose prend également en charge le streaming continu immédiat.
Dois-je payer en plus pour appliquer des filtres personnalisés à mes données ?
Non, le filtrage personnalisé est une fonctionnalité de base, pas un module payant. Nous encourageons un filtrage strict par catégorie, domaine, date, langue et pays. En délimitant précisément votre flux ou votre récupération d'archive, vous réduisez le volume total d'enregistrements non pertinents reçus, ce qui optimise vos coûts globaux de données.
Comment l'Archive de Bright Data se compare-t-elle à Common Crawl ?
Lorsqu'on travaille avec des données web à grande échelle, la fraîcheur, la pertinence et l'accessibilité sont essentielles. Alors que Common Crawl fournit un instantané historique large du web, l'Archive API de Bright Data offre des données en temps réel, continuellement mises à jour, avec des options avancées de filtrage et de livraison. Voici comment elles se comparent :
| Fonctionnalité | Archive de Bright Data | Common Crawl |
| Collecte de données | Capture en continu les données web publiques en temps réel, fournissant des résultats aussi récents que « maintenant ». | Exploration web périodique (non temps réel), mise à jour mensuelle ou bimensuelle. Les données peuvent être obsolètes. |
| Volume de données | 17,5 Po collectés en 8 mois, couvrant 118 milliards de pages (28 milliards d'URL uniques provenant de 40 millions de domaines). Ajoute ~2,5 Po et des milliards d'URL uniques par semaine. | 250 milliards de pages collectées sur 18 ans. |
| Couverture & pertinence des sites | Se concentre sur les données de sites web à haute valeur et pertinentes, basées sur de réels besoins de Scraping web. | Exploration indiscriminée, incluant des pages obsolètes ou de faible qualité. |
| Types de données | Pages web complètes (rendues en JS) | 98,6 % HTML et texte |
| Filtrage & livraison | Plateforme complète de découverte et de livraison – filtrage par catégorie, domaine, langue, date, etc. Livré via Amazon S3 ou webhook. | Aucun filtrage ni livraison intégrés. Les fichiers WARC bruts volumineux doivent être traités manuellement. |