Qu'est-ce que l'IA multimodale ? Exemple pratique utilisant Bright Data

Dans cet article, vous apprendrez :

Qu’est-ce que l’IA multimodale et pourquoi est-elle importante pour les applications modernes ?
Comment Bright Data permet la mise en œuvre pratique de l’IA multimodale grâce à la collecte de données sur le web.
Comment créer une application d’IA multimodale fonctionnelle à l’aide des outils de Bright Data grâce à une section guidée étape par étape.

C’est parti !

Qu’est-ce que l’IA multimodale ?

L’IA multimodale désigne les systèmes d’IA capables de traiter, d’interpréter et de générer des informations à partir de plusieurs types (ou « modes ») de données simultanément. Cela inclut le texte, les images, la vidéo, l’audio et les données structurées.
Par exemple, elle peut recevoir la photo d’une assiette de biscuits et générer une recette écrite en réponse, et vice versa.

What a Multimodal AI workflow looks like
Source

Cette convergence permet des applications beaucoup plus puissantes et nuancées, telles que :

Analyse avancée du contenu : comprendre le contexte d’un mème en analysant à la fois l’image et sa légende.
Commerce électronique intelligent : recommander des produits en analysant le style visuel des images et les préférences textuelles des avis.
Recherche améliorée : extraire des données à partir d’articles scientifiques comprenant des graphiques, des diagrammes et du texte.

Considérez l’IA multimodale comme donnant à votre ordinateur à la fois des yeux et des oreilles, capable de lire du texte et de visualiser des images.

Pourquoi Bright Data est essentiel pour créer des applications d’IA multimodale

La création d’une application IA multimodale commence par un élément essentiel : des données diverses, de haute qualité et évolutives. C’est là que Bright Data devient un partenaire indispensable.

Accès à des sources de données variées

L’IA multimodale nécessite un apport riche en différents types de données. Bright Data offre un accès transparent à des textes, des images, des vidéos et des données structurées provenant de l’ensemble du web public. Que vous ayez besoin de collecter des images et des descriptions de produits sur des sites de commerce électronique, d’analyser des publications sur les réseaux sociaux avec leurs visuels ou de rassembler des articles d’actualité avec des médias intégrés, l’infrastructure et les outils de Bright Data (tels que l’API Web Scraper et les Jeux de données) permettent de rassembler toutes ces modalités dans un flux de travail cohérent.

Qualité des données de niveau entreprise

Les modèles d’IA ne sont efficaces que dans la mesure où les données sur lesquelles ils sont entraînés ou fournis le sont également. Bright Data garantit que les données que vous collectez sont propres, fiables et précises. Grâce à des fonctionnalités telles que la rotation automatique des adresses IP, la gestion des CAPTCHA et le rendu JavaScript, Bright Data récupère des données complètes et débloquées, exactement comme les verrait un utilisateur humain. Cette qualité est indispensable pour créer des applications d’IA de production qui fournissent des résultats cohérents et fiables.

Évolutivité pour les cas d’utilisation en production

Une preuve de concept est une chose, une application à grande échelle en est une autre. Le réseau mondial de Proxys et l’infrastructure robuste de Bright Data sont conçus pour être évolutifs. Vous pouvez collecter simultanément des données multimodales provenant de milliers de sources sans vous soucier des blocages, des interdictions ou des limites de débit, ce qui garantit que votre application d’IA peut se développer pour répondre à la demande des utilisateurs.

Comment créer une application IA multimodale avec Bright Data

Créons une application pratique. Cet outil utilisera Bright Data pour extraire une page produit, collecter les données image et texte, puis les envoyer à un modèle d’IA multimodale (comme GPT-4 Vision) afin de générer une analyse structurée.

Prérequis

Un compte Bright Data.
Une clé API OpenAI avec accès au modèle gpt-4-vision-preview ou une clé API Anthropic.
Environnement Node.js (v18+) ou Python installé.
Connaissances de base en matière d’intégration d’API.

Étape 1 : Configurer Bright Data pour la collecte de données multimodales

Nous utiliserons l’API Web Scraper de Bright Data pour sa facilité d’utilisation et ses capacités de rendu JavaScript, qui sont essentielles pour capturer des pages de produits modernes et dynamiques.

Connectez-vous à Bright Data Scraper
Créez un nouveau Scraper. Pour cet exemple, ciblons une page produit type.
Saisissez l’URL cible
Dans les « Instructions d’analyse », copiez et collez le JSON ci-dessous.

Exemple de configuration du Scraper (interface utilisateur Bright Data) :

{
  "title": ".product-title",
  "image_url": ".main-product-image img | attr:src",
  "description": ".product-description",
  "price": ".price",
  "specs": ".specifications-table"
}

Étape 2 : Configurer le modèle d’IA multimodal

Maintenant que votre pipeline de données est prêt, connectons le cerveau IA de notre projet : le modèle gpt-4-vision d’OpenAI.

Ce modèle peut comprendre à la fois du texte et des images, ce qui le rend parfait pour notre cas d’utilisation multimodal.

1. Obtenez votre clé API

Rendez-vous sur votre tableau de bord OpenAI et créez une nouvelle clé API.
Conservez cette clé en lieu sûr, vous en aurez besoin dans votre code sous peu.

2. Configurez votre environnement de développement

Nous allons exécuter ce projet dans Node.js ou Python, selon votre préférence.

Ouvrez votre terminal dans le dossier de votre projet, puis installez le SDK officiel OpenAI :

Pour Node.js :

npm init
npm install openai

Pour Python :

pip install openai

Une fois l’installation terminée, vous êtes prêt à envoyer votre première requête au modèle à l’étape suivante.

Étape 3 : Collecter des données Web avec Bright Data

Maintenant que notre modèle est prêt, collectons des données réelles à l’aide de Bright Data.
C’est à ce stade que votre projet commence à prendre vie. Nous allons extraire des données textuelles et iconographiques d’une page produit réelle.

1. Connectez-vous à l’API Bright Data

Ouvrez le script principal de votre projet (par exemple, index.js ou main.py) et ajoutez le code suivant pour vous connecter à l’API Web Scraper de Bright Data.

Exemple Node.js :

import fetch from "node-fetch";

const BRIGHTDATA_API_KEY = "YOUR_BRIGHTDATA_API_KEY";
const SCRAPER_ID = "YOUR_SCRAPER_ID";

const response = await fetch(
  `https://api.brightdata.com/datasets/v3/run?dataset_id=${SCRAPER_ID}`,
  {
    method: "POST",
    headers: {
      Authorization: `Bearer ${BRIGHTDATA_API_KEY}`,
      "Content-Type": "application/json",
    },
    body: JSON.stringify({
      url: "https://example.com/product-page", // Remplacer par l'URL réelle du produit
    }),
  }
);

const scrapedData = await response.json();
console.log("Données multimodales collectées :", scrapedData);

2. Vérifiez vos données

Une fois ce script exécuté, vous devriez voir les données structurées du produit s’afficher dans votre console.
Cela pourrait ressembler à ceci (les valeurs varieront en fonction de votre URL cible) :

{
  "title": "Casque sans fil à réduction de bruit",
  "image_url": "https://examplecdn.com/headphones.jpg",
  "description": "Casque supra-auriculaire haut de gamme avec réduction active du bruit et autonomie de 30 heures.",
  "price": "$199.99",
  "specs": {
    "battery_life": "30 hours",
    "connectivity": "Bluetooth 5.2",
    "color": "Black"
  }
}

Ce résultat confirme que votre configuration Bright Data fonctionne correctement et renvoie à la fois des entrées texte et image, ce qui constitue une base idéale pour notre analyse multimodale par IA.

Étape 4 : Traiter et structurer les données

Maintenant que nous avons collecté nos données brutes sur les produits à partir de Bright Data, il est temps de les préparer pour notre modèle d’IA multimodale.
L’objectif ici est de fournir au modèle tout ce dont il a besoin : un texte propre, une référence d’image claire et une invite bien structurée qui lui indique exactement ce qu’il doit faire.

1. Formater les données sur les produits

Prenons nos données récupérées et transformons-les en un message bien structuré pour le modèle IA.

Exemple Node.js :

// Supposons que scrapedData contient les informations sur les produits renvoyées par Bright Data.
const productAnalysisPrompt = `
Analysez ce produit et fournissez un résumé structuré. Utilisez à la fois l'image du produit et les données textuelles.

Détails du produit :
- Titre : ${scrapedData.title}
- Description : ${scrapedData.description}
- Prix : ${scrapedData.price}
- Spécifications : ${JSON.stringify(scrapedData.specs)}

En vous basant sur l'image et le texte, veuillez répondre aux questions suivantes :
1. Quelle est l'utilisation principale de ce produit ?
2. Énumérez 3 caractéristiques clés visibles ou décrites.
3. Évaluez la qualité et la valeur perçues du produit.
`;

const imageUrl = scrapedData.image_url;

Ce que nous avons fait ici :

Nous avons combiné toutes nos données textuelles en une seule invite détaillée.
Nous avons stocké l’URL de l’image séparément afin que l’IA puisse la traiter visuellement.

2. Testez votre structure de données

Avant de passer à l’appel IA, enregistrez vos variables pour vérifier qu’elles semblent correctes et valides.

console.log("Aperçu de l'invite :", productAnalysisPrompt) ;
console.log("URL de l'image :", imageUrl) ;

Si tout semble lisible et que l’URL de l’image commence par https://, vous êtes prêt pour la phase suivante, qui consiste à l’introduire dans le modèle d’IA multimodale.

Étape 5 : envoyer les données au modèle d’IA multimodale

Voici maintenant la partie passionnante : envoyer nos données combinées texte + image au modèle d’IA multimodal afin d’obtenir des informations intelligentes.

Nous utiliserons le modèle gpt-4-vision d’OpenAI, qui peut « voir » l’image et « lire » le texte simultanément pour générer une analyse détaillée.

1. Initialiser le client OpenAI

Nous nous connecterons à l’API à l’aide du SDK officiel OpenAI.

Exemple Node.js :

import OpenAI from "openai";

const openai = new OpenAI({ apiKey: "YOUR_OPENAI_API_KEY" });

2. Créer une requête multimodale

Ensuite, nous enverrons le texte formaté du produit et l’URL de l’image ensemble dans un seul appel API.

const completion = await openai.chat.completions.create({
  model: "gpt-4-vision-preview",
  messages: [
    {
      role: "user",
      content: [
        { type: "text", text: productAnalysisPrompt },
        { type: "image_url", image_url: { url: imageUrl } },
      ],
    },
  ],
  max_tokens: 1000,
});

const aiResponse = completion.choices[0].message.content;
console.log("Résultat de l'analyse IA :", aiResponse);

3. Interpréter la réponse de l’IA

Après avoir exécuté cette commande, vous obtiendrez une analyse structurée similaire à celle-ci :

Le produit semble être un casque sans fil haut de gamme conçu principalement pour les voyageurs et les professionnels qui ont besoin d'une isolation phonique dans des environnements bruyants.

Ses principales caractéristiques sont les suivantes :
1. Technologie de réduction active du bruit visible dans la conception des écouteurs
2. Autonomie de 30 heures mentionnée dans les spécifications
3. Finition noire mate haut de gamme visible sur l'image

Le casque semble être de haute qualité d'après les matériaux visibles et les spécifications techniques détaillées fournies. Son prix suggère un positionnement haut de gamme sur le marché.

Étape 6 : Traiter et afficher les résultats

Maintenant que le modèle IA a produit son analyse, organisons et présentons la réponse de manière plus lisible.
Vous pouvez la conserver telle quelle dans la console ou la rendre plus agréable à l’œil dans un tableau de bord web ultérieurement.

1. Mettre en forme la réponse de l’IA

Nous allons prendre le texte brut renvoyé par le modèle et le présenter de manière claire.

Exemple Node.js :

console.log("=== PRODUCT INTELLIGENCE ANALYSIS ===");
console.log(aiResponse);

// (Facultatif) Enregistrer la sortie dans un fichier
import fs from "fs";
fs.writeFileSync("analysis_output.txt", aiResponse);
console.log("Analysis saved to analysis_output.txt");

Si vous souhaitez stocker les résultats de manière centralisée pour une utilisation ultérieure, vous pouvez également les enregistrer dans une base de données ou les afficher sur une interface React simple.

2. (Facultatif) Créer un aperçu Web de base

Pour une expérience plus visuelle, vous pouvez afficher les résultats via une page Web locale.

Exemple de mini-serveur Node.js :

import express from "express";
import fs from "fs";

const app = express();
app.get("/", (req, res) => {
  const result = fs.readFileSync("analysis_output.txt", "utf8");
  res.send(`
    <h2>Analyse de l'intelligence produit</h2>
    <pre>${result}</pre>
  `);
});

app.listen(3000, () =>
  console.log("Serveur en cours d'exécution à l'adresse http://localhost")
);

Ouvrez votre navigateur et rendez-vous sur http://localhost. Vous verrez l’analyse du modèle présentée sous forme de texte brut.

Conclusion

L’IA multimodale représente une avancée significative, permettant à des applications de comprendre le monde d’une manière plus riche et plus humaine. Comme nous l’avons démontré, la clé pour libérer ce potentiel réside dans l’accès à des données réelles de haute qualité, diversifiées et évolutives.

Développez et expérimentez

Vous pouvez aller encore plus loin dans ce projet :

Ajoutez d’autres sources de données : extrayez des avis ou des vidéos de sites web de commerce électronique pour une analyse plus approfondie.
Intégrez une interface utilisateur : affichez les résultats de l’IA dans un tableau de bord React ou Next.js épuré.
Automatisez les rapports : planifiez des collectes et des analyses quotidiennes pour surveiller les produits concurrents.

Chaque extension que vous créez rapproche votre projet d’un outil d’IA de niveau production.

Prêt à dynamiser vos projets d’IA avec les meilleures données web au monde ?

Inscrivez-vous dès aujourd’hui à Bright Data et commencez à utiliser des crédits gratuits.
Testez l’exemple de code, essayez-le sur différents sites web et explorez les autres outils de Bright Data, tels que le collecteur de données ou les Jeux de données prêts à l’emploi.

Commencez à créer la prochaine génération d’applications intelligentes.

Contacter Ventes Essai gratuit

IA multimodale – Qu’est-ce que c’est et exemple pratique avec Bright Data

Qu’est-ce que l’IA multimodale ?

Pourquoi Bright Data est essentiel pour créer des applications d’IA multimodale

Accès à des sources de données variées

Qualité des données de niveau entreprise

Évolutivité pour les cas d’utilisation en production

Comment créer une application IA multimodale avec Bright Data

Prérequis

Étape 1 : Configurer Bright Data pour la collecte de données multimodales

Étape 2 : Configurer le modèle d’IA multimodal

1. Obtenez votre clé API

2. Configurez votre environnement de développement

Étape 3 : Collecter des données Web avec Bright Data

1. Connectez-vous à l’API Bright Data

2. Vérifiez vos données

Étape 4 : Traiter et structurer les données

1. Formater les données sur les produits

2. Testez votre structure de données

Étape 5 : envoyer les données au modèle d’IA multimodale

1. Initialiser le client OpenAI

2. Créer une requête multimodale

3. Interpréter la réponse de l’IA

Étape 6 : Traiter et afficher les résultats

1. Mettre en forme la réponse de l’IA

2. (Facultatif) Créer un aperçu Web de base

Conclusion

Développez et expérimentez

Vous pourriez aussi être intéressé par

Création de pipelines Kubeflow avec la collecte de données Web fraîches

Comment extraire des données de Bilibili en 2026 : téléchargement de données vidéo pour l’entraînement de l’IA

Suivi des expériences MLflow avec des Jeux de données extraites de Bright Data