Dans ce guide, vous apprendrez :
- Qu’est-ce que les données structurées ?
- Qu’est-ce qu’une donnée non structurée ?
- Que sont les données semi-structurées ?
- Comment choisir l’outil adapté à votre projet.
Les principales différences entre elles
- Données structurées: les données structurées suivent toujours un modèle. Que vous utilisiez une application web avec ORM (Object Relational Mapping) ou que vous consultiez vos employés sur un tableur manuscrit, chacun d’entre eux a un « nom », une « date d’embauche » et un « taux de rémunération ».
- Données non structurées: elles comprennent à peu près tout le reste : fichiers texte, musique, films, images, etc. Les données non structurées ne s’intègrent jamais parfaitement dans vos lignes et colonnes.
- Données semi-structurées: elles suivent un modèle hybride. Tout est un objet, mais il n’y a pas de schéma uniforme. Pensez aux employés, mais incluez des éléments tels que « Salaire annuel », « Taux horaire », « Plan de retraite », « Couverture santé », « Adhésion à un syndicat », etc. Ces champs existent, mais tous les employés ne les possèdent pas.
Données structurées
Comme mentionné ci-dessus, les données structurées utilisent une structure rigide. Chaque objet possède les mêmes champs. Bien que leurs valeurs diffèrent, leur structure est identique.
Pourquoi les utiliser ?
Les données structurées utilisent un schéma rigide et entièrement prédéfini. Chaque feuille de calcul comporte un ensemble de colonnes. Chaque ligne contient une valeur pour toutes ces colonnes : aucune cellule n’est laissée vide. Dans les données structurées, il est facile d’identifier des modèles, des tendances et des corrélations, que vous créiez des rapports ou formiez des modèles.
Exemples concrets de données structurées
- Bases de données SQL
- Fichiers CSV
- Fichiers Excel
- Listes de produits (nom, prix, description)
- Profils sur les réseaux sociaux (nom d’utilisateur, biographie, page de profil)
- Blockchains (hauteur du bloc, nombre de transactions, hachage du bloc, difficulté de minage)
Défis
La structure rigide facilite l’utilisation de nos données, mais expose notre système aux problèmes suivants.
- Dette technique: c’est notre talon d’Achille. Si vous divisez le champ « nom » en deux champs (« prénom » et « nom de famille »), vous devez tout ajuster. Sites web, outils de haut niveau : les petits changements nécessitent souvent l’intervention d’un ingénieur pour modifier le pipeline.
- Problèmes d’évolutivité: à grande échelle, les performances peuvent être ralenties lorsque des milliers de personnes effectuent simultanément des jointures à grande échelle.
- Limitations contextuelles: vous collectez des informations de base, telles que le nom et l’âge. Votre système est intrinsèquement limité à ce schéma prédéfini. Un ticket d’assistance peut indiquer le type de problème, mais il ne mentionne pas le niveau de frustration du client.
- Biais de collecte: vous décidez à l’avance quelles données sont importantes et lesquelles ne le sont pas. Vous collectez des informations de base sur les produits (nom, prix et description), mais pas la réputation du vendeur. Il vous manque donc des données clés qui ont un impact sur votre analyse.
Méthodes de collecte
Il existe diverses méthodes pour collecter des données structurées, et la plupart d’entre elles s’adaptent immédiatement à votre système.
- Saisie par l’utilisateur: l’utilisateur saisit ses informations et celles-ci sont directement stockées dans votre base de données, sans aucun ajustement nécessaire.
- API: les API REST fournissent souvent des données propres et prêtes à l’emploi. Nous proposons des API pour le Scraping web et le SERP.
- Systèmes internes et externes: lorsque les utilisateurs interagissent avec votre site web, des systèmes automatisés suivent les événements d’utilisation et stockent les informations (pensez à Google Analytics) ; chaque utilisateur reçoit un cookie de suivi qui révèle des données utilisateur uniformes.
- Jeux de données historiques: ceux-ci sont souvent pré-explorés, nettoyés et triés. Vous pouvez consulter notre vaste marché de données ici. Si vous souhaitez en savoir plus sur les jeux de données en général, consultez ce guide.
- Saisie manuelle: étonnamment, cette pratique est encore courante en 2026. À tout moment, d’innombrables personnes dans le monde entier saisissent manuellement des données dans un tableur.
Données non structurées
Les données non structurées ne suivent aucune règle. Il n’existe aucun schéma prédéfini. Tout le monde n’a pas un nom, un âge ou une date d’embauche. En fait, tous les objets ne sont pas non plus des personnes. Cela représente la grande majorité des médias avec lesquels vous interagissez chaque jour.
Pourquoi les utiliser ?
Les données non structurées sont flexibles. Elles sont faciles à stocker, faciles à exploiter et riches en contexte. Cependant, leur manque de structure les rend difficiles à analyser à grande échelle.
Avec les bons outils, les données non structurées peuvent être une mine d’or : il suffit de les intégrer à votre analyse. « Comment dresser son dragon » ne sera pas chargé dans Google Sheets de sitôt.
Exemples concrets de données non structurées
Contrairement aux données structurées, cette liste est littéralement infinie. Voici quelques exemples.
- Bases de données documentaires (MongoDB et MariaDB)
- Fichiers texte
- Images (vous pouvez apprendre à extraire des images de Google Images ici)
- Vidéos (démonstrations, interviews, émissions de télévision, films)
- Fichiers audio (livres audio, musique, podcasts)
- Souvenirs humains (peu fiables, non structurés et réels)
Défis
Ce niveau de flexibilité et de facilité d’utilisation a un coût réel.
- Difficile, voire impossible à analyser: vous ne pouvez pas exactement exécuter des requêtes SQL sur un fichier mp4, ni sur aucune autre donnée non structurée d’ailleurs.
- Stockage désordonné: avez-vous déjà eu 15 versions du même document ? Des outils tels que Word, GitHub, Photoshop et YouTube Studio existent tous pour simuler une structure à partir de données non structurées.
- Contexte sans structure: une belle image peut susciter des émotions chez les personnes qui la regardent. Pour une machine, il s’agit simplement d’un ensemble de pixels sans rime ni raison.
- Charge de traitement: comme mentionné précédemment, toute une industrie a été créée pour ajouter une structure aux données non structurées. La transcription, l’audio, le balisage des vidéos, le classement des articles (et bien d’autres tâches) nécessitent une puissance de calcul considérable et une maintenance manuelle pour donner l’illusion d’un ordre.
Méthodes de collecte
- Scraping web: dans l’ensemble, Internet n’est pas structuré. Si vous écrivez vos propres Scrapers, Web Unlocker et Navigateur de scraping peuvent vous fournir d’excellents outils pour cela.
- API avec des charges utiles non structurées: lorsque vous effectuez une requête GET sur la
sourced’une image, d’une vidéo ou d’un fichier audio, vous n’obtenez aucune structure, mais un fichier binaire qui rend le contenu. - Téléchargements: lorsque vos utilisateurs téléchargent des images et des vidéos, ils fournissent un contexte riche. Vos machines ne comprennent peut-être pas une vidéo, mais vos employés, oui.
- E-mails et canaux d’assistance: il y a 10 ans, l’e-mail était le principal moyen de communication dans ce domaine. Aujourd’hui, des outils tels que Discord permettent aux utilisateurs de venir poster leur problème en quelques secondes tout en fournissant un contexte.
Données semi-structurées : le juste milieu
Les données semi-structurées se situent entre ces deux catégories. Tout ne s’imbrique pas parfaitement, mais avec un minimum d’efforts, c’est possible. Prenons l’exemple JSON ci-dessous. Ces deux objets représentent des personnes, d’une manière beaucoup plus simple que le mappage cérébral, mais ils ne s’intègrent pas directement dans un tableur.
[
{"name": "Alice", "age": 30},
{"name": "Bob", "city": "London", "hobbies": ["reading", "gaming"]}
]
Pourquoi l’utiliser ?
Les données semi-structurées nous permettent de représenter des structures flexibles et nécessitent un effort minimal pour s’adapter à nos données. Créons une classe Python et donnons une structure rigide à ces données.
class Person:
name: str = "n/a"
age: int = 0
city: str = "n/a"
hobbies: list[str] = []
Avec un travail extrêmement minime, nous disposons désormais d’une classe Person rigide qui prend en charge tous les champs obligatoires. Si l’un de ces champs est manquant, il obtient automatiquement une valeur par défaut telle que « n/a ».
Exemples concrets de données semi-structurées
Dans le monde numérique comme dans le monde physique, les données semi-structurées sont omniprésentes.
- HTML (toutes les pages web ont un document HTML avec des métadonnées)
- Markdown (en-têtes, puces, italique, gras)
- JSON (paires clé-valeur)
- XML (plus archaïque, mais toujours un schéma d’objets vaguement prédéfini)
- Journalisation (niveaux de journalisation tels que erreur, info et avertissement)
- Formulaires d’admission (nom, date de naissance, motif de la visite)
- Reçus (les articles et le total sont toujours indiqués, les remises sont au cas par cas)
- Liste d’achats (noms des articles : « Laitue » avec des notes facultatives telles que « Iceberg » ou « Romaine »)
Défis
Comme je l’ai mentionné, c’est le « juste milieu », mais cela s’accompagne de son lot de défis.
- Champs incohérents: les schémas d’objets sont similaires, mais pas identiques. Vous avez besoin d’une petite quantité de code standard dans vos systèmes (comme la classe Python mentionnée précédemment).
- Analyse: les données sont compréhensibles, mais pas compatibles. Vous devrez souvent écrire un petit processus ETL (Extract, Transform, Load).
- Les outils de stockage et de requête varient: il n’existe pas de norme universelle comme SQL. Les bases de données NoSQL font un excellent travail, mais vous devez indexer correctement vos données : vous ne pouvez pas simplement extraire un tableau. Il n’existe pas d’option
SELECT * FROM tableclaire. - Difficultés de validation: repensez à nos exemples JSON « Alice » et « Bob ». Ces éléments ne s’assemblent pas sans un peu de code standard, mais notre environnement de travail ignore cela car ce sont tous deux des objets JSON valides. Il néglige la différence entre les champs.
- Les problèmes sont cachés à la vue de tous: à première vue, tout semble propre, ce qui réduit le besoin d’un examen minutieux. Cependant, une seule faute de frappe peut passer à la production simplement parce que votre système suit les règles
JSON, où « proche » signifie « suffisamment bon ».
Méthodes de collecte
Les flux semi-structurés passent par diverses méthodes de collecte que nous avons déjà mentionnées.
- API: partout sur le web, il existe des API JSON pour vous fournir des données. En fonction du backend, elles fournissent des données structurées ou semi-structurées, selon les préférences des personnes qui les ont créées.
- Scraping web: lorsque vous effectuez du scraping web pour obtenir des listes de produits, vous suivez généralement une structure souple. Cela vous permet d’obtenir un équilibre entre flexibilité et lisibilité une fois que vous avez obtenu vos données.
- Formulaires en ligne: vous avez probablement déjà rempli un formulaire comportant des champs « facultatifs ». Ceux-ci sont représentatifs des données semi-structurées.
- Journaux et événements système: les journaux système présentent souvent une structure de base telle que « avertissement », « info » ou « erreur », mais les messages réels varient.
- E-mails: tous les e-mails comportent une section « à », « de » et « corps ». Cependant, le « corps » est totalement libre.
Tableau récapitulatif : comparaison de ces types de données
| Attribut | Données structurées | Données semi-structurées | Données non structurées | Pourquoi est-ce important |
|---|---|---|---|---|
| Schéma rigide | ✔️ | ❌ Partiel | ❌ | Détermine le degré de rigueur requis pour votre modèle de données |
| Facile à interroger | ✔️ | ❌ Assez | ❌ | A un impact sur la rapidité avec laquelle vous pouvez effectuer des recherches ou des filtrages |
| Lisible par l’homme | ❌ Souvent Non | ✔️ Généralement | ✔️ | A une incidence sur la révision manuelle, les audits ou le débogage |
| Lisible par machine | ✔️ | ✔️ | ❌ | Détermine la facilité d’automatisation de l’analyse |
| Prend en charge la flexibilité | ❌ | ✔️ | ✔️ | Détermine la capacité de votre système à traiter des données désordonnées |
| Fonctionne dans les bases de données SQL | ✔️ | ❌ Parfois | ❌ | Les bases de données relationnelles attendent des données structurées |
| Fonctionne dans les bases de données NoSQL | ❌ | ✔️ | ✔️ | NoSQL prend en charge des formats de données plus flexibles |
| Facile à valider | ✔️ | ❌ | ❌ | La validation permet de détecter rapidement les données erronées |
| Facile à stocker à grande échelle | ✔️ | ✔️ | ✔️ | Tous les types peuvent être mis à l’échelle, mais les données non structurées nécessitent un prétraitement |
| Facile à analyser | ✔️ | ❌ Nécessite une transformation | ❌ Nécessite un traitement | L’analyse directe n’est possible qu’avec une structure |
Conclusion
Le choix du type de données approprié, qu’elles soient structurées, semi-structurées ou non structurées, dépend des objectifs de votre projet et de la manière dont vous prévoyez d’utiliser les données. Les données structurées sont idéales pour une analyse et un reporting rapides. Les données semi-structurées offrent une grande flexibilité avec une configuration minimale. Les données non structurées fournissent un contexte riche, mais nécessitent un traitement plus important pour en extraire la valeur.
Bright Data fournit les outils dont vous avez besoin pour travailler avec n’importe quel type de données :
- Proxys résidentiels: collectez des données structurées et semi-structurées à partir de sites web en utilisant les adresses IP d’utilisateurs réels pour obtenir des taux de réussite élevés et un ciblage géographique précis.
- Navigateur de scraping: extrayez du contenu non structuré à partir de sites web riches en JavaScript à l’aide d’un environnement de navigation entièrement rendu.
- Jeux de données: accédez à des jeux de données structurés prêts à l’emploi pour accélérer l’analyse et prendre des décisions commerciales plus intelligentes.
Commencez votre essai gratuit dès aujourd’hui et libérez tout le potentiel de vos données.