Segmentation sémantique

TLDR : La segmentation sémantique attribue à chaque pixel d’une image une catégorie de classe. Elle offre aux machines une compréhension détaillée d’une scène au niveau des pixels.

La segmentation sémantique est une tâche de vision par ordinateur. Elle classe chaque pixel d’une image dans une catégorie prédéfinie — par exemple : route, voiture, piéton, ciel ou bâtiment. Contrairement à la détection d’objets, qui dessine des boîtes englobantes, la segmentation sémantique produit un masque de pixels exact par classe. Elle offre au modèle une compréhension précise de la forme et de la localisation des objets. Cette précision est essentielle pour la conduite autonome et l’imagerie médicale.

Types de segmentation

Segmentation sémantique : Tous les pixels d’une même classe partagent un seul label. Deux voitures sont toutes deux étiquetées « voiture » — sans distinction entre les instances individuelles.
Segmentation d’instances : Distingue les objets individuels d’une même classe. Chaque voiture reçoit un identifiant et un masque uniques.
Segmentation panoptique : Combine les deux — tous les pixels étiquetés par classe, avec des identifiants d’instance uniques pour les objets dénombrables comme les voitures et les personnes.

Architectures de modèles clés

Fully Convolutional Network (FCN) : Le premier modèle de bout en bout pour la segmentation sémantique. Remplace les couches denses par des couches convolutives pour une sortie pixel par pixel.
U-Net : Encodeur-décodeur avec connexions résiduelles. Architecture standard pour la segmentation d’images médicales.
DeepLab v3+ : Utilise des convolutions atrous et ASPP pour capturer le contexte multi-échelle. État de l’art sur les jeux de données de référence.
Segment Anything Model (SAM) : Le modèle fondateur de Meta pour la segmentation zéro-shot sur toute catégorie d’objets.

Applications

Véhicules autonomes : Segmentent la route, les marquages de voie, les véhicules et les piétons en temps réel. Combiné avec les nuages de points LiDAR pour la compréhension de scènes 3D.
Imagerie médicale : Segmentent les tumeurs, les organes et les tissus dans les IRM, les scanners et les analyses pathologiques.
Imagerie satellitaire : Cartographient l’utilisation des terres, détectent la déforestation et surveillent les infrastructures depuis des images aériennes.
Robotique : Segmentent les surfaces de l’espace de travail pour guider la manipulation robotique et la navigation sécurisée.
Réalité augmentée : Séparent le premier plan de l’arrière-plan pour les superpositions de scènes et les effets visuels.

Données d’entraînement pour les modèles de segmentation

La segmentation sémantique nécessite des images densément annotées. Chaque pixel doit porter un label — l’une des formes d’étiquetage de données les plus laborieuses. Une seule scène de conduite peut nécessiter 90 minutes d’annotation pixel par pixel. Les données synthétiques issues de simulations fournissent une vérité terrain au niveau des pixels gratuitement et réduisent considérablement le coût d’annotation. Les jeux de données de Bright Data offrent de vastes collections d’images pour construire des jeux de données d’entraînement pour la segmentation à grande échelle.

Essai gratuit S'inscrire avec Google