Sans embeddings, l’industrie de l’IA et la technologie en général seraient pratiquement méconnaissables. Les LLM ne vous comprendraient pas, les moteurs de recherche n’auraient aucune idée de ce que vous recherchez et tous les autres systèmes de recommandation produiraient des déchets aléatoires.
Suivez-nous et nous explorerons le fonctionnement des embeddings et leur importance dans l’apprentissage automatique.
Qu’est-ce qu’un encastrement ?
Les machines ne comprennent pas les mots, mais elles comprennent les nombres. Lorsque vous écrivez du code dans n’importe quel langage logiciel, par compilation ou interprétation, il finit par se transformer en binaires ou en code hexadécimal (deux formats numériques) qu’une machine peut comprendre.
Dans le domaine de l’IA, et plus particulièrement de l’apprentissage automatique, le modèle doit comprendre l’information. C’est là que les embeddings entrent en jeu. Les embeddings permettent de transformer les mots, les images et tout autre type d’information en nombres lisibles par la machine. Cela permet à l’IA de trouver des modèles, des relations et des significations.
Les machines comprennent les chiffres, pas les mots. Les embeddings sont le pont entre les données humaines et l’IA.
L’importance des emboîtements
Imaginez un monde où vous cherchez une pizzeria et obtenez des recommandations pour des tacos. Lorsque vous faites du web scraping, imaginez que vous demandiez à ChatGPT ou à Claude des conseils sur Python et que vous receviez des instructions sur la façon de prendre soin d’un python domestique !
Les enchâssements permettent aux modèles de comprendre votre intention. Sans eux, la plupart des systèmes fonctionneraient en faisant correspondre votre texte exact à un élément de leur base de données.
- LLMS: Avec les embeddings, ces modèles peuvent comprendre ce que vous dites réellement. Sans eux, les LLM ne parviendraient pas à trouver votre sens… Vous vous souvenez des astuces Python ?
- Les recommandations: Des sociétés comme Netflix les utilisent avec le filtrage et quelques autres techniques pour vous recommander des émissions que vous apprécierez.
Les “embeddings” permettent aux machines de ne pas se contenter de lire les données, mais de les comprendre.
Vecteurs : Le langage des emboîtements
Dans sa forme la plus simple, un vecteur est simplement une liste. Imaginez que vous souhaitiez représenter une liste d’ordinateurs portables. Chaque ordinateur portable possède des détails tels que le système d’exploitation, le fabricant du processeur, les cœurs de traitement et la mémoire vive.
Si nous avons deux ordinateurs portables, ils peuvent être représentés comme ci-dessous.
- Ordinateur portable Windows:
["Windows", "Intel", 4, "8"]
- Chromebook:
["ChromeOS", "Mediatek", 8, "4"]
Matrices : Combiner des vecteurs dans des tableaux
Une matrice est une liste de listes. Les puristes techniques me corrigeront et l’appelleront un vecteur de vecteurs… mais comme nous l’avons établi précédemment, un vecteur n’est qu’une liste. Lorsque les humains regardent une matrice, ils la considèrent comme un tableau.
Voici notre matrice lisible par l’homme.
OS | Fabricant de l’unité centrale | Cœurs de processeur | RAM (GB) |
---|---|---|---|
Fenêtres | Intel | 4 | 8 |
ChromeOS | Mediatek | 8 | 4 |
Notre matrice est un vecteur de vecteurs (une liste de listes). Comme vous pouvez le constater, ce tableau est plus difficile à lire, mais reste compréhensible. Pour une machine, c’est en fait plus facile à lire que le tableau ci-dessus, mais nous ne sommes toujours pas optimisés pour la lisibilité par la machine.
[
["Windows", "Intel", 4, 8],
["ChromeOS", "Mediatek", 8, 4]
]
Pour qu’il soit vraiment lisible par une machine, nous devons remplacer les mots par des nombres. Nous attribuerons un numéro à chacun de nos traits non numériques.
OS
- Fenêtres : 0
- ChromeOS : 1
Fabricant de l’unité centrale:
- Intel : 0
- Mediatek : 1
À ce stade, notre “tableau” n’est plus du tout lisible par l’homme. Cependant, les machines gèrent très bien les chiffres. Cela leur permet de traiter efficacement ces données pour trouver des relations.
[
[0, 0, 4, 8],
[1, 1, 8, 4]
]
C’est parfait pour une machine. Les machines ne lisent pas les mots, mais elles peuvent détecter des modèles dans les chiffres. Dans ce format, un modèle peut analyser efficacement nos données et rechercher des modèles.
Comment fonctionne l’intégration
Les embeddings vont bien au-delà de l’encodage numérique que nous avons créé ci-dessus. Les embeddings nous permettent de convertir de grands ensembles de données en matrices plus complexes que vous ou moi ne serions pas en mesure de comprendre sans une analyse approfondie.
Avec les embeddings, l’IA peut réellement analyser ces données et appliquer des formules pour trouver des relations. Le roi et la reine sont des concepts similaires. Ces deux objets auraient des vecteurs similaires car leurs concepts sont presque identiques.
Les vecteurs nous permettent d’effectuer des calculs. Les machines sont bien meilleures que nous dans ce domaine. Une machine pourrait considérer leur relation avec la formule que vous voyez ci-dessous.
Roi - Homme + Femme = Reine
Encastrements supervisés et non supervisés
Il existe deux types principaux d’encastrements : Supervisés et non supervisés.
Emboîtements supervisés
Si nous formons un modèle sur des données structurées avec des étiquettes et des correspondances, on parle d’apprentissage supervisé et il génère des encastrements supervisés. L’IA reçoit un enseignement explicite de la part d’un humain.
Utilisations courantes
- Courriel: Certains types d’e-mails sont classés comme spam ou non spam.
- Images: Un modèle est formé sur des images étiquetées de chats et de chiens.
Dans le cas de l’intégration supervisée, les humains connaissent déjà un modèle et l’enseignent à la machine.
Emboîtements non supervisés
Les encastrements non supervisés sont non structurés et non étiquetés. Le modèle analyse des quantités massives de données. Il regroupe ensuite les mots et les caractères qui apparaissent couramment ensemble. Cela permet au modèle de découvrir des modèles plutôt que de les apprendre directement d’un humain. Avec suffisamment de découvertes, ces modèles peuvent conduire à des prédictions.
Utilisations courantes
- LLM: Les grands modèles linguistiques sont conçus pour analyser de vastes ensembles de mots et prédire avec précision la manière dont ils s’agencent.
- Autocomplétion et vérification orthographique: Une forme plus primitive de ce même concept. Il est conçu pour prédire avec précision les caractères à partir desquels les mots sont construits.
Comment sont créés les emboîtements
Les emboîtements ne sont pas simplement attribués par les humains, ils sont appris. Pour apprendre les similitudes, les modèles et finalement les relations, un modèle doit être formé sur une quantité massive de données.
Étape 1 : Collecte des données
Un modèle a besoin d’un grand ensemble de données pour s’entraîner. Si vous entraînez votre modèle à l’aide de Wikipédia, il apprendra des faits de Wikipédia et parlera comme Wikipédia. Notre API Web Scraper peut vous aider à extraire des données de haute qualité en temps réel.
Vous pouvez former votre modèle sur à peu près n’importe quoi.
- Texte: Livres, PDF, sites web, etc.
- Images: Images étiquetées, relations entre les pixels
- Interactions avec les utilisateurs: Recommandations de produits, comportement du navigateur
Étape 2 : Conversion des données en vecteurs
Comme nous l’avons appris précédemment, les machines ne sont pas très performantes avec des données lisibles par l’homme. Les données collectées lors de l’étape précédente doivent être converties en vecteurs numériques.
Il existe deux types d’encodage :
- Encodage à chaud (One-Hot Encoding): Cette méthode est plus basique. Dans ce format, le modèle ne peut pas capturer les relations dans les données.
- Emboîtements denses: Ils sont plus courants dans l’IA moderne. Les objets étroitement liés (le roi et la reine) sont regroupés dans la matrice.
Étape 3 : Formation du modèle
Pour créer des embeddings, les modèles utilisent des techniques d’apprentissage automatique telles que celles décrites ci-dessous.
- Cooccurence de mots(Word2Vec, GloVe
)Polylang placeholder do not modify
- Apprentissage contextuel(BERT, GPT
)Polylang placeholder do not modify
Étape 4 : Mise au point
Une fois qu’un modèle a été formé, il doit être affiné. Pour affiner un modèle, ses encastrements sont modifiés afin de l’adapter à des tâches spécifiques.
- Les moteurs de recherche affinent leurs encarts pour mieux comprendre les requêtes.
- Les systèmes de recommandation ajustent souvent leurs encastrements en fonction du comportement de l’utilisateur.
- Les LLM nécessitent un réglage fin périodique afin d’ajuster leurs encastrements en fonction des nouvelles données.
Conclusion
Les embeddings font partie intégrante non seulement de l’industrie moderne de l’IA, mais aussi de l’industrie technologique dans son ensemble. Ils sont à la base de tout, des résultats de recherche aux LLM. Avec nos ensembles de données, vous avez accès à de vastes quantités de données de qualité pour entraîner votre modèle.
Inscrivez-vous maintenant et commencez votre essai gratuit, avec des échantillons de données.