Vérité terrain

TLDR: La vérité terrain est l’étiquette ou la réponse vérifiée qu’un modèle d’apprentissage automatique est entraîné à prédire. Sa qualité détermine directement la précision du modèle.

En apprentissage automatique, la vérité terrain désigne les étiquettes correctes et vérifiées associées aux données d’entraînement. Une étiquette de vérité terrain indique au modèle quelle est la bonne réponse pour une entrée donnée. Pour une tâche de classification d’images, la vérité terrain peut être l’étiquette « chat ». Pour la détection d’objets, il s’agit de la boîte englobante et de la classe de chaque objet dans une scène. Le terme est issu de la télédétection — des mesures de terrain confirmant des données aériennes ou satellitaires.

Ground Truth in Supervised Learning

L’apprentissage supervisé nécessite des données étiquetées. Chaque exemple d’entraînement est associé à une sortie de vérité terrain. Le modèle apprend à minimiser la différence entre ses prédictions et la vérité terrain. Cette différence est mesurée par une fonction de perte. La qualité des étiquettes de vérité terrain est le principal facteur de performance du modèle. Des étiquettes bruyantes ou incohérentes rendent les modèles peu fiables.

How Ground Truth Is Created

Annotation humaine : Les annotateurs étiquettent manuellement des images, textes, données audio ou de capteurs.
Révision par des experts : Des spécialistes du domaine vérifient les étiquettes — notamment pour les tâches médicales ou juridiques.
Étiquetage automatisé : Des données structurées existantes ou des métadonnées fournissent automatiquement les étiquettes.
Crowdsourcing : Des plateformes comme Mechanical Turk distribuent les tâches d’annotation à grande échelle.
Génération synthétique : Les pipelines de données synthétiques génèrent des données avec des étiquettes intégrées parfaites.

Ground Truth vs. Model Predictions

Pendant l’entraînement, le modèle ne voit jamais la vérité terrain de test. Les métriques d’évaluation comparent les prédictions du modèle à la vérité terrain mise de côté. Les métriques courantes incluent la précision, le rappel, le score F1 et la précision moyenne (mAP). Un modèle performant sur la vérité terrain d’entraînement mais pas sur les données de test est en surapprentissage.

Ground Truth in Computer Vision and Robotics

Détection d’objets : Les boîtes englobantes de vérité terrain étiquettent chaque objet dans les images d’entraînement.
Cartographie 3D : Les nuages de points capturés par LiDAR fournissent une vérité terrain spatiale pour la compréhension de scènes.
Conduite autonome : Les cartes de vérité terrain indiquent les positions des voies et les emplacements des obstacles.
NLP : Les réponses rédigées par des humains servent de vérité terrain pour les modèles de questions-réponses.

Data Quality and Ground Truth at Scale

Les projets d’IA à grande échelle nécessitent des millions d’exemples précisément étiquetés. Des directives d’annotation incohérentes créent du bruit dans les étiquettes. Ce bruit dégrade la précision du modèle proportionnellement à sa sévérité. Les jeux de données de Bright Data fournissent des données d’entraînement structurées de haute qualité, collectées à partir de sources réelles.

Essai gratuit Sinscrire avec Google