Modèle de diffusion

TLDR: Un modèle de diffusion génère des données réalistes en apprenant à inverser un processus d’ajout de bruit. Stable Diffusion et DALL-E en sont les exemples les plus marquants.

Un modèle de diffusion est une classe de modèle d’IA générative. Il apprend à créer des données en inversant un processus de destruction contrôlé. Lors de l’entraînement, le modèle observe une image à chaque étape d’une « diffusion directe » : du bruit gaussien est ajouté pas à pas jusqu’à ce que l’image soit du bruit pur. Le modèle apprend l’inverse — comment débruiter chaque étape. À l’inférence, il part d’un bruit aléatoire et débruite étape par étape pour produire une nouvelle image.

Comment fonctionnent les modèles de diffusion

Processus direct : Du bruit gaussien est ajouté à un échantillon d’entraînement sur T pas de temps. Au pas de temps T, les données sont indiscernables d’un bruit aléatoire.
Processus inverse : Un réseau de neurones — généralement U-Net ou un transformeur — apprend à prédire et supprimer le bruit à chaque étape.
Objectif d’entraînement : Le réseau minimise la différence entre le bruit prédit et le bruit réellement ajouté à chaque pas de temps.
Échantillonnage : À partir d’un bruit gaussien pur, le modèle débruite sur T étapes inverses pour produire un nouvel échantillon réaliste.

Conditionnement et contrôle par texte

Les modèles de diffusion peuvent être conditionnés par des invites textuelles, des étiquettes de classe ou des images. Les modèles texte-image utilisent un encodeur de texte (par ex., CLIP) pour guider le processus de débruitage. Des couches d’attention croisée injectent le signal textuel à chaque étape. Cela permet un contrôle précis : le modèle génère exactement ce que l’invite décrit. La qualité des invites textuelles est primordiale — voir l’ingénierie des invites.

Modèles de diffusion notables

Stable Diffusion : Modèle texte-image open source. Très utilisé pour la génération artistique et la création de jeux de données synthétiques.
DALL-E 3 : Modèle texte-image d’OpenAI. Excelle dans le respect des invites et le photoréalisme.
Imagen : Modèle de diffusion de Google, utilisant un LLM pour l’encodage du texte.
Sora : Modèle texte-vidéo d’OpenAI. Génère des clips vidéo réalistes à partir d’invites textuelles.
AudioLDM : Génère de l’audio et de la musique à partir de descriptions textuelles.

Modèles de diffusion et données d’entraînement

Les modèles de diffusion sont également utilisés pour générer des données d’entraînement synthétiques pour d’autres systèmes d’IA. En vision par ordinateur, les images synthétiques comblent les lacunes là où les données réelles étiquetées sont rares. L’entraînement de modèles de diffusion nécessite des milliards de paires image-texte à grande échelle. Les jeux de données de Bright Data fournissent des données d’entraînement volumineuses et organisées pour construire et affiner des modèles génératifs.

Essai gratuit S'inscrire avec Google