VLA vs. modèles du monde : pourquoi la stratégie de données à l'échelle du web est déterminante

Un résumé de la soirée VLA au Web Data Loft.

Nous avons réuni des ingénieurs d’Agility Robotics, Tesla, Prometheus et Distill Labs au Web Data Loft de Bright Data à San Francisco pour débattre d’une question :

Que faut-il réellement pour passer d’un modèle de langage à un robot fonctionnant dans le monde réel ?

La réponse était plus concrète que ce que suggère l’engouement actuel. Le goulot d’étranglement n’est pas uniquement l’architecture du modèle. C’est le corpus d’entraînement : ce que vous collectez, comment vous le mélangez, d’où il provient, et si vous pouvez le traiter à une échelle qu’aucune équipe manuelle ne peut atteindre.

Le panel comprenait Sri et Ahmed d’Agility Robotics, Ankur, ingénieur ML en robotique s’exprimant à titre personnel, Daniel de Prometheus, anciennement 1X et Waymo, et Jacek, co-fondateur de Distill Labs. La conversation était animée par Adam de HackerSquad et du Builders Collective.

Voici les cinq points essentiels pour ceux qui développent un modèle Vision-Langage-Action, un modèle du monde, ou le pipeline de données correspondant.

1. Un VLA est un VLM avec une tête d’action, et sa généralisation provient du pré-entraînement à l’échelle du web

La définition de travail du panel était simple : un VLA commence comme un modèle vision-langage entraîné sur des textes et des images à l’échelle d’internet, sur des tâches telles que le sous-titrage, la segmentation et la compréhension des objets. On y ajoute ensuite un composant d’action et on l’affine sur des données robotiques.

Cette distinction est importante. Les données robotiques enseignent l’exécution. Le pré-entraînement à l’échelle du web enseigne au modèle ce qu’est le monde.

C’est pourquoi un VLA peut parfois saisir un objet pour lequel il n’a jamais été explicitement entraîné. La généralisation ne provient pas uniquement d’un petit ensemble de démonstrations robotiques télé-opérées. Elle vient d’une exposition visuelle et sémantique large avant même que le robot entre en jeu.

Si votre corpus de pré-entraînement est étroit, aucun volume de données de télé-opération coûteuses ne peut compenser la généralisation que vous avez négligée.

« Il est entraîné sur des données à l’échelle d’internet sur du texte et des images… puis vous affinez le VLM sur des données robotiques et vous obtenez un modèle vision-langage-action. L’avantage est une meilleure généralisation : si vous l’entraînez à saisir un certain objet, vous pouvez lui demander d’en saisir un autre, car il a vu des choses similaires. »
— Ankur, ingénieur ML en robotique, s’exprimant à titre personnel. Voir à 9:59 →

📖 Lecture connexe : Qu’est-ce qu’un modèle Vision-Langage-Action (VLA) ? · Meilleures bibliothèques IA pour la robotique · Les modèles de fondation expliqués

2. Vision, langage et action convergent vers un espace de tokens unifié

Les VLA modernes ressemblent de plus en plus aux LLM sur un point important : ils prédisent le prochain token.

Ce token peut être un mot, un patch d’image ou une commande de contrôle dans l’espace articulaire. Comme l’a expliqué Jacek, co-fondateur de Distill Labs, le lien avec les agents logiciels est direct. Un LLM appelle des outils via API. Un VLA appelle des outils physiques. Le cadre passe de « appeler un endpoint » à « saisir la tasse », mais le schéma sous-jacent est similaire.

L’implication est puissante : toute modalité pouvant être tokenisée peut intégrer le même espace d’entraînement. Vidéos web, séquences égocentrées, démonstrations humaines, télé-opération et données robotiques on-policy peuvent toutes contribuer à une représentation partagée.

La contrainte se déplace alors de « le modèle peut-il utiliser ceci ? » à « pouvons-nous sourcer les bons exemples à la bonne échelle ? »

« Vous pouvez considérer votre espace d’action comme un function calling pour les LLM… vous le décomposez ainsi et ce n’est pas différent de ce que les gens construisent pour le monde non physique, des agents qui lancent des sous-agents dans un cadre exposant des outils. Maintenant le cadre est plus physique. C’est ce qui le rend puissant, car vous pouvez vous appuyer sur les données d’entraînement web pour obtenir un bon point de départ. »
— Jacek, co-fondateur, Distill Labs. Voir à 15:14 →

📖 Lecture connexe : La tokenisation expliquée · La stack technique des agents IA · Comment créer des agents IA : feuille de route complète

3. Les VLA et les modèles du monde nécessitent des données différentes, confondre les deux est coûteux

L’une des distinctions les plus marquantes de la soirée concernait l’entraînement des VLA par rapport à celui des modèles du monde.

Comme l’a formulé Ankur, un VLA est essentiellement un problème d’apprentissage par imitation. Vous souhaitez des trajectoires propres, réussies et de haute qualité. Les mauvaises démonstrations peuvent nuire.

Un modèle du monde est différent. Il doit prédire ce qui se passe ensuite en fonction d’une action, ce qui signifie qu’il doit comprendre non seulement les résultats réussis, mais aussi les erreurs, les cas limites et les échecs. Pour utiliser un modèle du monde à des fins de planification ou comme simulateur appris pour l’apprentissage par renforcement, il doit représenter l’ensemble des futurs possibles.

Daniel, ingénieur chez Prometheus qui a précédemment dirigé des travaux sur les modèles du monde chez 1X, a expliqué pourquoi c’est difficile. De nombreux modèles du monde actuels sont biaisés vers les résultats réussis. Face à une trajectoire sur le point d’échouer, ils peuvent halluciner une récupération au lieu de modéliser l’erreur. En robotique, c’est particulièrement dangereux. Le modèle doit être précisément contrôlable par l’action aux moments où le contact, la préhension et l’échec sont les plus probables.

La conclusion : les « données robotiques » ne forment pas un seul compartiment générique. Les politiques d’imitation et les modèles du monde nécessitent des corpus délibérément différents.

« Vous voulez vraiment un modèle du monde très contrôlable par l’action… le moment décisif quand vous saisissez un objet. Si vous avez des lacunes là, c’est vraiment mauvais signe. »
— Daniel, Prometheus, anciennement 1X. Voir à 35:36 →

📖 Lecture connexe : Qu’est-ce que l’entraînement de modèles IA ? · L’hallucination IA expliquée · Jeux de données pour la robotique

4. La hiérarchie des données est réelle : les données web apportent l’étendue, les données robotiques apportent le contrôle

Ahmed, ingénieur chez Agility Robotics, a exposé une hiérarchie claire des signaux.

Les données de télé-opération contiennent les informations de contrôle les plus solides car elles incluent l’état complet du robot. Les démonstrations humaines et les vidéos égocentrées véhiculent moins de signal de contrôle direct. Les vidéos web en portent le moins au niveau du contrôle fin.

Mais cela ne rend pas les données web moins importantes. Cela rend leur rôle différent.

La vidéo à l’échelle du web enseigne la sémantique, le contexte, la structure des tâches, la diversité des objets et la connaissance générale du monde. Elle aide le modèle à comprendre à quoi ressemblent les pièces, les outils, les personnes, les objets et les objectifs dans une immense variété de situations. Ce qu’elle n’enseigne pas bien, c’est la physique fine d’un corps robotique spécifique exécutant une action spécifique.

Ankur a donné l’analogie la plus claire : vous pouvez regarder toutes les vidéos de Messi ou Ronaldo jamais enregistrées et comprendre profondément le football, mais vous ne pouvez toujours pas jouer sans vous entraîner. Les données web enseignent le jeu. Les données on-robot enseignent le corps.

L’insight pratique sur le budget de données est venu du même échange : une heure de données web peut apporter approximativement la valeur transférable de cinq minutes de données de télé-opération. Les données web ne remplacent pas la téléop, mais un bon pré-entraînement à l’échelle du web peut réduire la quantité de données robotiques coûteuses nécessaires.

« Nous pouvons regarder beaucoup de vidéos de Messi ou Ronaldo, mais tant qu’on ne s’entraîne pas soi-même, on ne peut pas vraiment jouer. La compréhension de la tâche vient des données web. Pour l’exécuter réellement, nous avons besoin de données on-robot… peut-être qu’une heure de données web équivaut à cinq minutes de données de téléop. »
— Ankur, ingénieur ML en robotique, s’exprimant à titre personnel. Voir à 1:01:09 →

📖 Lecture connexe : Données vidéo pour l’IA · Jeu de données de vidéos YouTube · Jeux de données audio pour l’IA · Jeux de données d’images

5. Il n’existe pas encore de lois de mise à l’échelle fiables, la vitesse de curation devient donc l’avantage concurrentiel

Pour les LLM, l’industrie dispose des lois de mise à l’échelle de Kaplan et Chinchilla. Pour les VLA et les modèles du monde, Daniel a été direct : la robotique n’en est pas encore là.

Les équipes ne peuvent toujours pas prédire de manière fiable les performances robotiques en fonction des tokens web, des heures de téléop, des données de déploiement, de la puissance de calcul ou de la taille du modèle. Une partie du défi vient du fait que l’apprentissage par imitation et la modélisation du monde utilisent des signaux de supervision différents. Une autre est que la métrique qui compte est le succès en aval, pas la perte de pré-entraînement.

Daniel a également établi un contraste utile avec la simulation de véhicules autonomes. En conduite autonome, la simulation s’arrête souvent au moment du contact. En robotique, le contact est là où commence la vraie complexité. Saisir, pousser, glisser, déformer, percuter et récupérer ne sont pas des cas limites. Ce sont la tâche elle-même.

En attendant de meilleures lois de mise à l’échelle, l’avantage revient aux équipes capables de trouver et de traiter les bons exemples le plus rapidement : scènes spécifiques, familles de tâches, interactions d’objets, échecs et moments riches en contact. Ce n’est pas seulement un défi de modélisation. C’est un défi de découverte et de pipeline de données.

« Répondre aux lois de mise à l’échelle en termes de nombre de flops ou de tokens est désormais courant pour les LLM, Kaplan et al., les lois de mise à l’échelle de Chinchilla. Nous ne posons pas vraiment ces questions pour comparer scientifiquement les VLA et les modèles du monde aujourd’hui… Je pense que la réponse est que nous n’en sommes pas encore là, et que nous devrions vraiment y arriver. »
— Daniel, Prometheus, anciennement 1X et Waymo. Voir à 54:35 →

📖 Lecture connexe : Découverte de données · Meilleurs fournisseurs de données d’entraînement IA · Données d’entraînement pour LLM

Ce que cela signifie pour votre stratégie de données en robotique

Le panel a convergé vers une conclusion claire :

Les données à l’échelle du web donnent aux robots une compréhension large du monde. Les données on-robot leur apprennent comment y agir. Meilleur est votre corpus de pré-entraînement, moins vous avez besoin de données robotiques coûteuses pour atteindre une exécution fiable.

Concrétiser cela nécessite trois capacités que la plupart des équipes sous-estiment :

🌐 Extraction à l’échelle du web

Collecte de vidéos, d’images et d’audio à l’échelle du pétaoctet depuis le web ouvert, et pas seulement des jeux de données académiques figés aux taxonomies obsolètes. Voir l’infrastructure de collecte de données à l’échelle du web de Bright Data et les solutions de données personnalisées.

🔍 Découverte visuelle au-delà de la recherche par mots-clés

La diversité de tâches la plus précieuse apparaît souvent dans des scènes jamais décrites dans un titre, un tag ou une légende. La recherche par mots-clés manque une grande partie de la longue traîne. Explorez la découverte visuelle et sémantique via l’API Discover.

⚖️ Provenance défendable

Les modèles de texte s’entraînent sur des billions de tokens. Les VLA s’entraînent sur des billions de frames. Chaque frame peut soulever une question de licence et de provenance, et le déploiement réel de robots élève les enjeux. En savoir plus dans notre Centre de confiance et nos directives de collecte éthique des données.

Les modèles convergent. Le facteur différenciant devient le corpus : son étendue, sa pertinence, et votre capacité à justifier son origine.

Vous développez un VLA ou un modèle du monde ?

Parlez à notre équipe → pour découvrir et sourcer des vidéos d’entraînement à l’échelle du web.

En savoir plus sur Bright Data pour l’IA, explorer notre offre de données vidéo pour les VLA, ou parcourir nos jeux de données prêts à l’emploi pour la robotique, la vision par ordinateur et l’entraînement multimodal.

Contacter ventes Essai gratuit

Les VLA et les modèles du monde ont besoin de données à l’échelle du web. Mais pas les mêmes données