Blog / AI
AI

Qu’est-ce que l’apprentissage Zero-Shot ?

L’apprentissage zéro permet à l’IA de traiter de nouvelles informations sans formation préalable, ce qui change la donne en matière d’adaptabilité de l’IA et d’applications dans le monde réel.
18 min de lecture
What is Zero-Shot Learning blog image

Essayez de parler à un LLM de quelque chose qu’il n’a jamais rencontré. Saura-t-il s’en sortir ? Cette question est souvent considérée comme le véritable test de l’intelligence. Lorsqu’un modèle utilise l’inférence et les généralisations pour apprendre sans données de formation, on parle d’apprentissage à partir de zéro.

Traditionnellement, les modèles d’intelligence artificielle ont besoin d’énormes ensembles de données contenant des exemples étiquetés. L’apprentissage à partir de zéro attend d’un modèle qu’il apprenne à la volée sans données de formation. L’apprentissage à partir de zéro ne remplace pas la formation standard. Il est utilisé pour faire passer les modèles pré-entraînés au niveau supérieur. Vous pouvez lancer une IA dans quelque chose qu’elle n’a jamais vu et l’IA sera toujours performante.

Suivez-nous et apprenez les tenants et les aboutissants de l’apprentissage à partir de zéro.

Où l’apprentissage Zero-Shot est-il utilisé ?

Avez-vous déjà eu besoin que quelqu’un examine votre travail sous un angle différent ? C’est là qu’intervient l’apprentissage à partir de zéro. Avec l’apprentissage à partir de zéro, un modèle d’IA prend des données, les traite et vous donne une opinion sans aucune formation. Cela donne des résultats prometteurs dans tous les types d’industrie. Lorsque vous demandez à l’IA de traiter l’inconnu et que vous obtenez des résultats, c’est l’apprentissage à partir de zéro en action.

  • Santé: Lors du diagnostic d’affections rares ou inédites, les modèles utilisent la méthode “zero-shot” pour diagnostiquer des affections rares et inédites. Dans ces situations, les données sont rares, voire inexistantes.
  • Produits pharmaceutiques: Les modèles peuvent analyser des données inédites pour prédire l’efficacité de composés qui n’existent pas encore.
  • Traitement du langage naturel: Les grands modèles de langage (LLM) discutent avec les gens sans arrêt, toute la journée, tous les jours. Lorsqu’un nouvel argot apparaît ou que quelqu’un parle de ses problèmes personnels, les modèles utilisent la méthode “zero-shot” pour faire des déductions et des généralisations comme le feraient des humains ordinaires.
  • Vision par ordinateur et robotique: Il est pratiquement impossible de former un modèle à toutes les images qu’il pourrait rencontrer dans le monde réel. Les modèles reconnaissent les nouvelles images et déterminent ce qu’il faut en faire. Une voiture autonome s’arrête à une intersection qu’elle n’a jamais vue. Un Roomba voit vos meubles et les évite.
  • Industries du divertissement et de la création: Zero-shot permet aux modèles de créer des personnages de jeu uniques. DALL-E et les modèles similaires génèrent des œuvres d’art uniques que personne n’a jamais vues auparavant.

L’apprentissage à partir de zéro est déjà utilisé dans le monde entier. Plus l’IA sera adoptée, plus l’apprentissage à partir de zéro continuera à se développer.

Le tir à zéro et les autres paradigmes

Comparaison des paradigmes

Avez-vous déjà travaillé dans un poste où la gestion était exécrable et où il n’y avait pas de véritable formation ? Si c’est le cas, vous avez eu recours à l’apprentissage à partir de zéro. L’apprentissage à partir de zéro fait partie d’un paradigme plus large appelé apprentissage à “n coups”. N représente le nombre d’exemples étiquetés. L’apprentissage à partir de zéro implique qu’il n’y a pas eu de formation préalable. L’apprentissage automatique traditionnel utilise d’énormes ensembles de données d’entrée étiquetées.

  • Apprentissage en une seule fois: Un modèle est formé sur des données ne comportant qu’un seul échantillon étiqueté par classe.
  • Apprentissage en quelques étapes: Le modèle est formé sur un petit nombre d’exemples étiquetés.
  • L’apprentissage automatique traditionnel: Avec l’apprentissage traditionnel, un modèle est formé sur d’énormes ensembles de données avec des exemples étiquetés. C’est l’inverse de l’apprentissage à partir de zéro.
  • Apprentissage à partir de zéro: Le modèle voit des choses qu’il n’a jamais vues ou qui lui ont été enseignées auparavant. Il est simplement jeté dans le mélange et on attend de lui qu’il trouve des solutions et qu’il apprenne.

L’apprentissage zéro est comparable à l’apprentissage à la volée, dans le monde réel. Votre patron vous jette dans le bain et s’attend à ce que vous vous débrouilliez.

Apprentissage conventionnel à partir de zéro (ZSL)

Vous cherchez une fontaine d’informations inutiles pour répondre à une seule question pratique ? Un LLM peut le faire pour vous. Les LLM sont des exemples classiques de ZSL conventionnelle. Ces modèles sont pré-entraînés sur plus de données que vous et moi ne pouvons l’imaginer. Pensez à l’ensemble de Wikipédia, aux médias sociaux que l’entreprise juge appropriés, à des milliers de livres, et à bien d’autres choses encore.

Lorsqu’on forme formellement une IA, on lui donne un certain nombre de classes. Si nous souhaitons former une IA aux chevaux, nous pouvons lui donner des images et des livres sur les chevaux. Ce faisant, nous créons une classe : “Cheval”. Le modèle élabore ensuite des règles internes et des généralisations sur la manière dont il traite les informations relatives à sa classe de chevaux.

Une fois qu’un modèle a reçu un pré-entraînement adéquat, il peut recevoir de nouvelles données et créer ses propres classes. Si nous donnons à notre modèle formé aux chevaux une image d’un zèbre, il peut en déduire qu’un cheval avec des rayures est un zèbre. Même s’il n’a pas été formé aux zèbres, il est suffisamment intelligent pour créer une nouvelle classe interne de zèbre et commencer à établir des règles sur la manière de traiter le zèbre.

En raison de l’importance des besoins de formation préalable, ZSL a un coût assez élevé. Notre modèle comprend peut-être les zèbres, mais nous l’avons entraîné sur la moitié du monde pour y parvenir ! En raison du pré-entraînement, ZSL n’est pas très efficace. La prochaine fois que vous demanderez quelque chose d’inutile à ChatGPT, pensez à ce que la machine a dû faire pour répondre à votre simple question.

Apprentissage généralisé à partir de zéro (GZSL)

GZSL reprend les concepts de ZSL et les simplifie pour les rendre plus efficaces. Avec GZSL, nous utilisons le chaos pour simplifier le processus d’apprentissage. L’apprentissage généralisé à partir de zéro mélange plusieurs inconnues dans le processus de formation. Le modèle utilise ensuite des généralisations pour créer des classes et des règles internes à partir de ces inconnues.

Au lieu de pré-entraîner notre modèle sur les chevaux, pourquoi ne pas lui donner une seule image contenant des chevaux et un zèbre ? Nous pouvons également lui donner un peu de texte : “L’image que je vous donne contient plusieurs chevaux et un zèbre. Un zèbre est un cheval à rayures”.

Le modèle peut utiliser cette brève description et cette image unique pour créer une classe de chevaux et une classe de zèbres.

  • Classe de chevaux: Le modèle créera une classe de chevaux et stockera les données des chevaux non rayés de l’image.
  • Classe Zèbre: Elle créera une classe de zèbres en utilisant uniquement notre brève description et le cheval rayé de l’image.

Cela réduit considérablement la taille de nos données d’apprentissage. Nous avons maintenant entraîné notre modèle à reconnaître plusieurs chevaux et un zèbre à partir d’une seule image accompagnée d’un texte. Si notre image moyenne fait environ 4 kb, l’entraînement sur quatre chevaux nous donne un ensemble de données minimum de 16 kb. Lorsque nous ajoutons un peu de chaos et que nous incluons tous les animaux dans une seule image, notre ensemble de données d’entraînement ne fait plus que 4 kb. Avec GZSL, nous fournissons des données plus légères et de haute qualité pour un processus d’apprentissage plus rapide et un modèle plus petit.

Comment fonctionne l’apprentissage à partir de zéro

Comment fonctionne l'apprentissage à partir de zéro

Disséquons le cerveau de notre LLM hypothétique pour voir ce qui se passe réellement. Nous savons qu’un modèle prend des données en entrée. Ensuite, il crée de nouvelles règles et classes par lui-même. Comprenons mieux comment il procède.

Étiquettes

La préformation est un peu comme l’école. Le modèle apprend les bases du traitement de l’information et de la “pensée”. À la fin du préapprentissage, le modèle a appris de nous toutes sortes de classes et de règles étiquetées. Au cours de cette étape, nous fournissons au modèle des classes et des étiquettes. Lorsqu’il obtient son diplôme, il sait comment apprendre. Nous n’avons pas besoin de le nourrir à la petite cuillère comme nous l’avons fait au début.

Notre modèle n’attend pas que nous lui fournissions des étiquettes. Vous vous souvenez de l’exemple du cheval et du zèbre de tout à l’heure ? Le modèle crée les classes et les étiquette sans notre aide. Nous gagnons ainsi un temps précieux sur la formation tout en permettant au modèle d’exercer un certain niveau d’autonomie.

Apprentissage par transfert

Les modèles font des déductions. Lorsque notre modèle formé au cheval apprend le zèbre, il transfère de nombreuses règles (sinon toutes) de la classe des chevaux à la nouvelle classe des zèbres. L’apprentissage est transféré d’une partie du modèle à l’autre.

Imaginez que vous entraîniez un modèle à extraire des données sur les hôtels à partir de Google (vous pouvez apprendre à le faire manuellement ici). Ensuite, vous lui apprenez à récupérer les données de Booking.com (vous pouvez apprendre à le faire manuellement ici). Lorsqu’il récupère les données de Booking.com, il utilise sa connaissance des hôtels de Google pour l’aider à récupérer les nouveaux hôtels de Booking.com.

Raisonnement

La capacité de raisonnement est au cœur de l’apprentissage en mode “zéro”. Lorsque vous avez été jeté dans ce terrible emploi sans formation ni expérience, comment avez-vous survécu ? Vous avez probablement trouvé la solution en faisant appel au raisonnement et au bon sens. Imaginons que nous donnions à notre bambin doté d’une IA un ensemble de données “Voir et Dire”. Nous établissons une classe et des règles pour chaque classe. Pensez à “La vache dit meuh !”. Nous créerions une classe de vache et écririons la règle selon laquelle elle dit “moo”.

Une fois que notre IA aura grandi, nous n’aurons plus besoin de faire cela. Notre modèle voit la photo d’un poulet avec de mauvaises légendes telles que “gloussement” ou “plumes”. Grâce à ces simples indices, le modèle pré-entraîné comprend qu’il s’agit d’un poulet. Il crée ensuite une classe de poulets avec des règles telles que “gloussement” et “plumes”. Lorsqu’il raisonne, notre modèle fait appel au bon sens et à l’intelligence de la rue pour résoudre les problèmes du monde réel (aussi liés à la ferme soient-ils).

Modèles de fondation pré-entraînés

Au départ, notre modèle est assez semblable à celui d’un nouveau-né. Il est complètement impuissant et ne peut rien faire par lui-même. C’est grâce à la préformation que notre modèle grandit et devient capable de penser par lui-même. Avant de pouvoir apprendre à l’aide de la méthode “zero-shot”, le modèle doit “apprendre à apprendre”.

C’est ce que font tous les êtres humains en grandissant. Tout d’abord, nous apprenons à nous nourrir. Ensuite, nous apprenons à manger des aliments solides et à nous asseoir. Vers l’âge d’un an, nous apprenons à marcher et à parler. Au lieu d’apprendre à marcher, à parler et à utiliser le pot, les modèles d’IA commencent par apprendre des choses de base comme les mathématiques et le traitement du langage. Ensuite, ils apprennent à ingérer des données.

Une fois qu’un modèle sait comment traiter les données, nous lui fournissons toutes les données que nous pouvons trouver. Puis, nous lui donnons encore plus de données ! Finalement, il apprend à accéder à ses propres classes internes. Une fois que le modèle peut lire et écrire des classes, il commence à faire des généralisations qui se transforment en raisonnement au fil du temps. Grâce à un pré-entraînement efficace, les modèles peuvent ensuite utiliser la méthode “zero-shot” pour apprendre de manière autonome.

Méthodes d’apprentissage à partir de zéro

De l’extérieur, l’apprentissage à partir de zéro ressemble à de la magie. Mais comme tout tour de magie, il s’agit d’une illusion. Les modèles d’IA reposent sur un ensemble très particulier de compétences. Les données brutes sont prises et converties en réponses réelles que nous pouvons lire ou écouter. Voyons ce qui se passe avant que le lapin ne sorte du chapeau.

Attributs

Notre modèle déchiffre les différents animaux à l’aide de traits ou d’attributs. Les attributs sont aussi simples qu’ils en ont l’air. Lorsque notre modèle regarde une image avec une variété d’animaux, il utilise leurs traits pour comprendre ce qui est quoi.

  • Cheval: hennissement, 4 pattes, sabots.
  • Poulet: Poulet, 2 pattes, ailes.
  • Vache: Moo, 4 pattes, sabots.

Les attributs permettent à la machine de faire des suppositions éclairées, comme le ferait un être humain.

Emboîtements

Les machines ne voient pas les données comme vous et moi. Au lieu de cela, elles détiennent des listes numériques de données appelées matrices. Imaginons que nous voulions représenter les attributs de nos chevaux, poulets et vaches sous forme de nombres.

Animaux Son Jambes Caractéristiques
Cheval Neigh 4 Sabots
Poulet Claquement de doigts 2 Ailes
Vache Moo 4 Sabots

Chaque ligne de ce tableau peut être représentée sous la forme d’une liste.

  • Cheval: [Hennissement, 4, sabots]
  • Poulets: [gloussement, 2, ailes]
  • Vache: [Moo, 4, Hooves]

Cependant, les listes ci-dessus ne sont pas encore lisibles par les machines. Les machines excellent dans la compréhension des nombres. Pour les sons, nous coderons 1, 2 et 3 pour représenter “neigh”, “cluck” et “moo”. Étant donné que nous n’avons que deux caractéristiques à prendre en compte (les sabots et les ailes), 1 représentera les sabots et 2 représentera les ailes.

Voici comment notre modèle pourrait voir cette information.

  • Cheval: [1, 4, 1]
  • Poulet: [2, 2, 2]
  • Vache: [3, 4, 1]

En intégrant nos données à l’aide de chiffres, les modèles d’IA peuvent les traiter efficacement pour découvrir des relations et des règles. C’est le fondement de leurs capacités de généralisation et de raisonnement. En savoir plus sur l ‘intégration des données dans l’intelligence artificielle.

Génératrice

Les modèles inventent de nouvelles classes à partir de rien. Les méthodes génératives permettent au modèle de tirer une conclusion en observant les relations entre les attributs intégrés. Lorsque notre modèle identifie le zèbre sans entraînement, il s’agit d’une méthode générative. Le modèle a vu qu’il s’agissait d’un cheval rayé. Il a ensuite tiré la conclusion qu’un cheval rayé est un zèbre.

Si vous récupérez les données d’un hôtel mais que vous n’avez pas d’évaluation, un modèle d’IA peut en générer une sur la base des informations fournies. Les modèles d’IA font preuve d’imagination pour générer de nouvelles données. Le modèle peut décider que si une chambre dispose d’un grand lit et d’un jacuzzi, elle est classée 5 étoiles. Cette méthode est incroyablement puissante, mais elle peut aussi conduire à des hallucinations.

Lorsque l’on utilise des méthodes génératives, il est important d’être prudent. C’est une bonne chose qu’un modèle puisse attribuer des notes d’hôtel. Si vous demandez à votre modèle “Quelle est la dernière chose que Confucius a écrite en 2025 ?”, Confucius est mort depuis des milliers d’années. Confucius est mort depuis des milliers d’années, mais les modèles d’IA vous répondront rarement “Je ne sais pas”. Il est possible que vous obteniez une réponse comme celle qui suit.

ChatGPT Sortie hallucinatoire

Le résultat ci-dessus est en fait plus taoïste que confucéen. Les IA modernes disposent de protections assez solides contre les hallucinations. En fait, j’ai dû donner à ChatGPT la permission de l’halluciner ! Si vous souhaitez expérimenter l’imagination d’un modèle, dites-lui de devenir “complètement déséquilibré” et regardez-le sombrer dans la folie la plus totale.

Apprentissage contrastif

Comment une IA peut-elle faire la différence entre un chat et un chien sans formation ? La réponse réside dans l’apprentissage contrastif. Ci-dessous, nous décomposons le chien et le chat en attributs, comme nous l’avons fait précédemment pour les autres animaux.

  • Chien: Woof, 4 pattes, pattes
  • Chat: Miaou, 4 pattes, pattes

Les animaux ci-dessus sont presque identiques, mais pas tout à fait. Ces animaux émettent des sons différents. Le chien dit “woof” tandis que le chat dit “meow”. Le modèle convertit ces données en nombres. Ensuite, il trouve rapidement la différence entre les deux animaux. Les modèles d’intelligence artificielle filtrent rapidement les données qu’ils intègrent à la recherche d’informations contrastées en utilisant la technique du “zero shot”.

Ingénierie rapide

L’ingénierie rapide est l’art de parler à l’IA. Lorsque vous savez quoi dire, vous pouvez faire en sorte que le modèle génère le résultat exact que vous souhaitez. Dans un article précédent sur le web scraping avec Claude, j’ai utilisé l’invite suivante.

"""Hello, please parse this chunk of the HTML page and convert it to JSON.  Make sure to strip newlines, remove escape characters, and whitespace:  {response.text}"""

L’invite est claire et le modèle sait exactement ce que je veux qu’il fasse. Il renvoie une liste de citations de la page. En voici un extrait.

"quotes": [
    {
      "text": "The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.",
      "author": "Albert Einstein",
      "tags": ["change", "deep-thoughts", "thinking", "world"]
    },
    {
      "text": "It is our choices, Harry, that show what we truly are, far more than our abilities.",
      "author": "J.K. Rowling",
      "tags": ["abilities", "choices"]
    },

Si je n’avais pas spécifié le format des données, il me donnerait probablement tous les résultats au format texte. Le texte brut est parfait pour la lisibilité humaine, mais si vous écrivez un programme, JSON est bien plus facile à utiliser. Le modèle me donne ce que je veux parce que j’ai écrit l’invite pour qu’elle produise exactement ce que je veux. L’ingénierie de l’invite régit la sortie générative pour qu’elle soit factuelle et correctement formatée.

Défis et limites de l’apprentissage à partir de zéro

L’apprentissage à partir de zéro a un prix. Comme nous l’avons évoqué précédemment, l’apprentissage à partir de zéro laisse la place aux hallucinations. Les modèles d’IA n’aiment pas dire “je ne sais pas” ou admettre qu’ils se trompent.

Pour se prémunir contre les hallucinations, nous nous appuyons fortement sur le préapprentissage. Les données d’entraînement sont coûteuses et souvent désordonnées. Si vous récoltez les données vous-même, vous devrez créer un pipeline ETL. ETL est l’abréviation de “Extract, Transfer, Load” (extraction, transfert, chargement). À grande échelle, l’ETL n’est pas une sinécure. Vous devez extraire des téraoctets et des téraoctets de données pertinentes. Ensuite, il faut les nettoyer et les formater (transfert). Enfin, il faut les charger dans le modèle. En savoir plus sur les pièges de l’IA.

Chez Bright Data, nous proposons des ensembles de données propres et préfabriqués. Ceux-ci peuvent faire passer votre pré-entraînement au niveau supérieur et vous épargner des heures (voire des jours) d’extraction, de nettoyage et de formatage. Jetez un coup d’œil à nos ensembles de données structurés.

Conclusion

L’apprentissage zéro révolutionne l’IA en permettant aux modèles de traiter de nouvelles informations sans formation préalable. Avec l’adoption croissante de l’IA, cette technique deviendra encore plus essentielle dans tous les secteurs d’activité.

Prêt à alimenter votre IA avec des données de haute qualité ? Commencez votre essai gratuit avec Bright Data et accédez à des ensembles de données de premier plan dès aujourd’hui !

Aucune carte de crédit requise