Ingénierie des caractéristiques

TLDR: L’ingénierie des caractéristiques transforme les données brutes en entrées significatives qui aident les modèles d’apprentissage automatique à apprendre plus rapidement et avec plus de précision.

L’ingénierie des caractéristiques est le processus de création des variables d’entrée — les caractéristiques — qu’un modèle d’apprentissage automatique utilise pour apprendre. Une caractéristique est toute propriété mesurable des données. De bonnes caractéristiques encodent la connaissance du domaine sur ce qui importe pour la tâche de prédiction. Les caractéristiques non pertinentes ajoutent du bruit et nuisent aux performances du modèle. L’ingénierie des caractéristiques était la compétence dominante en ML avant que le deep learning en automatise une grande partie.

Techniques fondamentales

Normalisation et mise à l’échelle : Redimensionner les valeurs sur une plage commune (0–1 ou z-score). Empêche les caractéristiques à grande magnitude de dominer.
Encodage des catégories : Convertir les catégories en nombres à l’aide d’un encodage one-hot, par étiquette ou par cible.
Transformation logarithmique : Appliquer le logarithme aux distributions asymétriques (revenus, population). Rend les modèles plus linéaires à apprendre.
Caractéristiques date/heure : Extraire le jour de la semaine, l’heure ou le temps écoulé depuis un événement à partir de colonnes d’horodatage.
Caractéristiques d’interaction : Multiplier ou combiner deux caractéristiques pour capturer des effets conjoints que le modèle pourrait manquer individuellement.
Caractéristiques textuelles : Convertir le texte en vecteurs TF-IDF, en comptages de mots ou en embeddings pour les tâches de TALN.

Sélection des caractéristiques

Toutes les caractéristiques n’améliorent pas le modèle. Trop de caractéristiques provoquent le « fléau de la dimensionnalité ». Méthodes de sélection courantes : analyse de corrélation, information mutuelle et élimination récursive de caractéristiques. Les modèles basés sur des arbres comme Random Forest fournissent des scores d’importance des caractéristiques intégrés. Les techniques de régularisation (L1/Lasso) éliminent automatiquement les caractéristiques faibles.

Ingénierie des caractéristiques vs. Deep Learning

Le ML traditionnel (régression logistique, gradient boosting) dépend de caractéristiques artisanales. Le deep learning apprend automatiquement des représentations à partir de données brutes. Les CNN apprennent les caractéristiques d’image sans aucune ingénierie manuelle. Les Transformers apprennent les caractéristiques textuelles de bout en bout à partir de grands corpus. L’ingénierie des caractéristiques reste essentielle pour les données tabulaires et spécifiques à un domaine où les réseaux de neurones n’ont aucun avantage inhérent.

Qualité des données et qualité des caractéristiques

Les caractéristiques ne valent que ce que valent les données sous-jacentes. Les étiquettes de vérité terrain doivent être cohérentes pour que les caractéristiques se généralisent entre les divisions. Les valeurs manquantes, les valeurs aberrantes et la dérive de schéma dégradent les caractéristiques au fil du temps. Les jeux de données de Bright Data fournissent des données d’entraînement propres et structurées, prêtes pour l’extraction de caractéristiques sans les contraintes du nettoyage de données brutes.

Essai gratuit S'inscrire avec Google