Dans ce tutoriel, vous apprendrez :
- Ce qu’est Dataiku et ce qu’il apporte au développement d’agents IA en entreprise.
- Les principales limitations des agents IA et comment les surmonter grâce aux outils d’accès web.
- Comment connecter un agent IA Dataiku au Web MCP de Bright Data pour le Scraping web, la recherche, la découverte, l’automatisation, et bien plus encore.
Plongeons dans le vif du sujet !
How Dataiku Supports AI Agents
Dataiku est une plateforme centralisée et collaborative qui aide les organisations à transformer des données brutes en insights exploitables, en modèles prédictifs et en applications GenAI. Elle fournit un environnement de bout en bout où les équipes data et les utilisateurs métier peuvent collaborer sur des projets d’analytique et d’IA.

Dataiku prend en charge les agents IA en offrant un environnement complet pour créer, déployer et gérer des agents de manière sécurisée à grande échelle. Il fournit les outils, la gouvernance et les intégrations nécessaires pour connecter les agents aux données, aux modèles et aux systèmes externes. Il garantit que les agents peuvent fonctionner de manière fiable dans les workflows d’entreprise tout en restant contrôlés et auditables.
Les principales capacités offertes par la plateforme Dataiku pour les agents IA sont :
- Création d’agents flexible : Création d’agents visuelle et basée sur le code, pour les utilisateurs non techniques comme pour les développeurs avancés.
- Support natif des outils : Intégrations avec des services tiers pour interroger des jeux de données, se connecter à des modèles IA et appeler des services web.
- LLM Mesh : Couche d’abstraction centralisée pour gérer et router l’utilisation des LLM entre des fournisseurs comme OpenAI, Anthropic et Mistral.
- Gouvernance d’entreprise : Contrôle d’accès basé sur les rôles, audit, traçabilité, tests et surveillance des performances pour une utilisation en production sécurisée.
Why Extend Dataiku AI Agents with Web Scraping, Discovery, Search, and Interaction Tools
Les agents IA Dataiku, comme tous les systèmes propulsés par des LLM, sont contraints par une limitation fondamentale : la stagnation de l’information…
Les grands modèles de langage génèrent des résultats basés sur des données d’entraînement qui reflètent le passé, pas le présent. En conséquence, ils peuvent produire des recommandations obsolètes, des faits hallucinés ou des insights incomplets lorsqu’ils sont utilisés dans des environnements d’entreprise en rapide évolution.
En pratique, cela devient un sérieux goulot d’étranglement pour les workflows Dataiku. Un agent IA sans accès à des données fraîches peut s’appuyer sur des bonnes pratiques dépassées, manquer des mises à jour récentes dans les API ou les plateformes, ou ne pas intégrer les nouveaux jeux de données et signaux métier disponibles. Cela réduit la fiabilité et limite la valeur de l’automatisation pilotée par l’IA au sein des pipelines d’entreprise.
Pour surmonter cette limitation, les agents Dataiku peuvent être nativement connectés à une infrastructure de données web en temps réel. C’est là que Bright Data devient une amélioration critique.
Bright Data’s Web MCP
Le Web MCP de Bright Data équipe les agents IA Dataiku de recherche web en direct, de découverte de données, d’extraction structurée et d’interaction automatisée avec le navigateur. Il permet aux agents d’opérer avec des informations actuelles et vérifiables au lieu de s’appuyer uniquement sur des connaissances statiques.
Le Web MCP expose plus de 70 outils pour interagir avec les produits et services basés sur l’API de Bright Data. Même en mode Rapid (niveau gratuit), il propose des outils utiles comme :
| Outil | Description |
|---|---|
search_engine + version batch pour usage parallèle |
Récupérer les résultats Google, Bing ou Yandex en JSON structuré ou Markdown |
scrape_as_markdown + version batch pour usage parallèle |
Convertir n’importe quelle page web en Markdown propre tout en gérant le contournement des protections anti-scraping |
discover |
Recherche propulsée par l’IA renvoyant des résultats web classés et pertinents |
Ensuite, le [mode Pro](https://github.com/brightdata/brightdata-mcp?tab=readme-ov-file#-pricing, modes) débloque des capacités avancées pour l’extraction de données structurées depuis des plateformes comme Yahoo Finance, Amazon, LinkedIn, YouTube, Zillow, Google Maps, et plus de 40 autres. Il propose également des outils pour l’automatisation complète du navigateur web.
Important : Les outils Web MCP s’appuient sur l’infrastructure à grande échelle de Bright Data, alimentée par un réseau mondial de Proxys résidentiels de plus de 400 millions d’IPs dans plus de 195 pays. Cela garantit une haute fiabilité, une évolutivité et un accès cohérent aux ressources web, même à des niveaux de charge d’entreprise.
How to Give Dataiku Agents Access to the Web via Bright Data Web MCP
Dans ce guide étape par étape, vous serez guidé tout au long du processus de configuration du Web MCP de Bright Data dans les agents Dataiku. Ainsi, ils acquerront la capacité d’explorer le web et d’ancrer leurs réponses dans des informations réelles, actuelles et vérifiables.
Suivez les instructions ci-dessous !
Prerequisites
Pour suivre cette section du tutoriel, assurez-vous de disposer de :
- Un compte Dataiku Cloud (même un essai gratuit convient).
- Une clé API pour l’un des fournisseurs LLM pris en charge par Dataiku (nous utiliserons une clé API OpenAI dans cet exemple).
- Un compte Bright Data avec une clé API configurée.
- Une connaissance du fonctionnement du MCP.
- Une connaissance des outils exposés par le serveur Web MCP.
Remarque : Suivez le guide officiel pour configurer votre clé API Bright Data.
Step #1: Create Your Dataiku Space
Après vous être connecté à Dataiku Cloud pour la première fois, vous serez invité à créer votre premier espace Dataiku.
Entrez un nom pour votre espace, sélectionnez une région, puis cliquez sur le bouton “CREATE MY SPACE” :

Vous pouvez considérer un espace comme un environnement Dataiku isolé avec sa propre configuration. Chaque espace exécute une version spécifique de la plateforme Dataiku. Comme Dataiku publie régulièrement des mises à jour, les espaces sont périodiquement mis à niveau pour donner accès aux dernières fonctionnalités et améliorations.
Une fois votre espace créé, vous serez redirigé vers le tableau de bord de l’espace Dataiku :

Excellent ! Votre compte Dataiku Cloud et votre espace sont maintenant prêts à être utilisés.
Step #2: Configure the LLM Integration
Votre agent Dataiku a besoin d’accéder à un LLM pour fonctionner. Dans cette section, nous allons connecter un compte OpenAI, mais le processus est similaire pour les autres fournisseurs pris en charge.
Commencez par ouvrir la page “Connections”. Ensuite, cliquez sur “ADD A CONNECTION” :

Vous serez redirigé vers la page “DSS Settings” :

Ici, cliquez sur le menu déroulant “NEW CONNECTION”, recherchez la chaîne “openai” et sélectionnez l’option correspondante :

Entrez un nom pour la connexion (par exemple, “OpenAI”) et collez votre clé API OpenAI. Cliquez sur “TEST” pour vérifier que la connexion fonctionne, puis sélectionnez “CREATE” pour l’ajouter :

Une fois créée, la connexion OpenAI apparaîtra sur la page “Connections” :

Votre compte Dataiku peut maintenant accéder aux modèles LLM OpenAI. Vous êtes prêt à créer des agents IA propulsés par des modèles externes. Super !
Step #3: Prepare for the Bright Data Web MCP Remote Connection
Avant de créer votre agent, vous devez configurer une connexion au serveur Web MCP de Bright Data.
Contrairement aux solutions d’agents IA locales, Dataiku fonctionne dans le cloud. Cela signifie que vous devez vous connecter à la version distante du serveur Web MCP de Bright Data. En d’autres termes, vous ne pouvez pas installer le serveur Web MCP localement et vous y connecter depuis Dataiku.
Remarque : Le serveur distant Web MCP de Bright Data est prêt pour l’entreprise. Il prend en charge des connexions illimitées et une haute évolutivité, tout comme tous les autres produits Bright Data.
Pour commencer, familiarisez-vous avec le format d’URL de connexion distante du Web MCP de Bright Data :
https://mcp.brightdata.com/mcp?token=<YOUR_BRIGHT_DATA_API_KEY>&pro=1
N’oubliez pas que le paramètre &pro=1 est optionnel :
- Sans
&pro=1: Vous n’avez accès qu’aux outils gratuits (5 000 requêtes/mois) en mode Rapid. - Avec
&pro=1: Vous accédez à la suite complète de plus de 70 outils et aux capacités avancées, mais des frais d’utilisation s’appliquent.
Si vous souhaitez un contrôle plus granulaire, comme n’activer que des outils ou groupes d’outils spécifiques, vous pouvez générer une URL MCP distante personnalisée directement depuis le tableau de bord Bright Data.
Connectez-vous à votre compte Bright Data et accédez à la page “AI Gateways > MCP”. Suivez l’assistant de configuration pour configurer votre accès au serveur MCP. À la fin du processus, vous obtiendrez une URL de connexion personnalisée comme suit :

Copiez l’URL de connexion “Streamable HTTP”, car vous en aurez besoin sous peu pour configurer la connexion Web MCP de Bright Data dans votre espace Dataiku. Super !
Step #4: Connect Dataiku to the Bright Data Web MCP
Maintenant que vous disposez de l’URL de connexion Web MCP de Bright Data, l’étape suivante consiste à créer une connexion MCP dans votre espace Dataiku.
Comme précédemment, ouvrez le menu déroulant “NEW CONNECTION”. Cette fois, recherchez “mcp” et sélectionnez l’option “Remote MCP” :

Donnez un nom à votre connexion MCP (par ex., bright-data-web-mcp) et collez l’URL de connexion Web MCP distante obtenue précédemment :

Appuyez sur “TEST” pour vérifier que la connexion fonctionne correctement, puis sélectionnez “CREATE” pour l’ajouter. Une fois créée, la connexion MCP apparaîtra sur la page “DSS Settings” :

Excellent ! Votre espace Dataiku peut maintenant se connecter au serveur Web MCP de Bright Data, offrant à vos futurs agents IA un accès aux capacités web en direct.
Step #5: Create your Dataiku AI Agent
De retour sur la page “Overview” de Dataiku, cliquez sur “MANAGE” sur la carte “Dataiku Solutions” :

Cela vous amènera à la page de gestion des projets. Cliquez sur le menu déroulant “NEW PROJECT” et sélectionnez l’option “Blank project” :

Donnez un nom à votre projet Dataiku, comme “Web Access”, et cliquez sur “CREATE” :

Une fois dans le projet, cliquez sur l’icône “GenAI” et sélectionnez “Agents & GenAI Models” :

Ici, cliquez sur “CREATE YOUR FIRST AGENT” pour commencer :

Choisissez le type d’agent que vous préférez (dans cet exemple, nous utiliserons “Simple Visual Agent”) et cliquez sur “CREATE” :

Vous accéderez maintenant à la page de configuration de l’agent IA :

Parfait ! Vous êtes prêt à équiper l’agent IA avec les outils Web MCP de Bright Data.
Step #7: Create the Web MCP Agent Tools
Avant de continuer avec la configuration de l’agent IA, vous devez convertir la connexion Remote MCP créée précédemment en outils d’agent IA.
Commencez par ouvrir la page “Agent Tools” depuis l’icône “GenAI” :

Sur la page “Agent Tools”, cliquez sur “NEW AGENT TOOL” :

Sélectionnez l’option “MCP” et appuyez sur “CREATE” :

Ensuite, configurez le serveur Remote MCP en sélectionnant la connexion “bright-data-web-mcp” créée précédemment. Puis cliquez sur “CREATE” :

Vous accéderez maintenant à la page de configuration des outils d’agent IA MCP. Ici, vous pouvez tester les outils et définir une description générale pour l’ensemble d’outils MCP. Sélectionnez tous les outils disponibles et activez-les :

Si vous avez configuré le serveur en mode Pro, vous verrez l’ensemble complet de plus de 70 outils Web MCP :

Sinon, vous ne verrez que les outils disponibles en mode Rapid (gratuit).
Appuyez sur “SAVE” dans le coin supérieur droit. Les outils Web MCP de Bright Data sont maintenant disponibles pour votre agent Dataiku. Bravo !
Step #8: Configure Your Dataiku Agent for Web Access
Vous disposez maintenant de tous les éléments nécessaires pour finaliser votre agent IA propulsé par Bright Data pour les tâches liées au web.
Retournez à la page “Simple Visual Agent”. Dans le menu déroulant “LLM”, vous verrez les modèles OpenAI de votre connexion précédemment créée. Dans cet exemple, nous utiliserons le modèle “GPT-5.4 mini” :

Ensuite, vous devez fournir des instructions claires pour définir le comportement de l’agent. Dans le champ “Instructions”, collez un prompt comme celui-ci :
You are a general-purpose assistant with access to the web. Use the Bright Data Web MCP tools whenever you are asked to perform web-related tasks, such as:
- Searching the web
- Fetching, reading, or scraping web pages
- Extracting structured data from supported platforms
- Running browser automation or web automation workflows
- Conducting research, investigations, fact-checking, or news lookups
- Any other task involving URLs, links, or web content
Cliquez maintenant sur “ADD TOOL” et sélectionnez l’option “MCP” (qui correspond à l’ensemble d’outils Web MCP configuré précédemment) :

Votre agent IA Dataiku final avec accès web devrait ressembler à ceci :

Mission accomplie. Vous avez créé avec succès un agent IA Dataiku intégré à Bright Data via MCP pour les tâches liées au web. Il ne reste plus qu’à le tester !
Step #9: Test the Agent
Pour vérifier que votre agent IA fonctionne correctement, exécutez-le avec une tâche liée au web. Par exemple, rédigez un prompt comme celui-ci :
Access the Best Buy "Top 100 Deals" page and retrieve the top three products listed there.
For each product, extract structured data. Then use this information to produce a detailed report comparing the three products over product name, description, price, rating if available, and key features or specifications.
Finally, conclude with a short analysis of the retailer's current marketing intent based on the selected products, such as discount strategy, promoted categories, positioning, and what this suggests about demand.
Notez que c’est quelque chose qu’un LLM standard ne peut pas faire seul, car cela nécessite des capacités de recherche web et de scraping.
Exécutez le prompt, et voici ce qui devrait se passer :

Concentrez-vous sur le tableau de comparaison des produits Best Buy :

Notez que le rapport inclut une analyse détaillée des trois meilleurs produits de la page “Top 100 Deals of the Season” de Best Buy, que vous pouvez consulter directement en ouvrant la même page dans votre navigateur :

En particulier, en inspectant les logs de l’agent, vous verrez qu’il a :
- Appelé l’outil Web MCP
search_engine(alimenté par l’API SERP) pour rechercher sur Google la page Best Buy Top 100 Deals. - Récupéré les données SERP structurées et les a analysées pour identifier l’URL cible correcte.
- Accédé à la page via l’outil
scrape_as_markdown(propulsé par l’API Web Unlocker), qui retourne une version Markdown de la page. - Détecté les 3 meilleures URLs de produits Best Buy en analysant le contenu Markdown.
- Scrapé chaque produit en utilisant l’outil Web MCP Pro
web_data_bestbuy_products(qui se connecte au Scraper Best Buy de Bright Data). - Agrégé toutes les informations récupérées dans le rapport final.
Cela confirme que les outils Web MCP de Bright Data sont utilisés pour ancrer l’agent IA dans des données web réelles.
Et voilà ! L’intégration Dataiku + Bright Data dans un agent IA fonctionne à merveille. Gardez à l’esprit que ce n’était qu’un exemple. Grâce à l’intégration Bright Data, cet agent peut gérer de nombreux autres cas d’usage et scénarios !
Next Steps
Pour un agent IA Dataiku Cloud réel et prêt pour l’entreprise, envisagez d’ajouter des connexions tierces supplémentaires comme Slack, Google Drive et d’autres outils de collaboration. De plus, envisagez d’intégrer des connexions de données avec vos bases de données.
Cela permet aux résultats générés d’être automatiquement partagés dans les workflows et systèmes de votre organisation. Vous pouvez également envisager de déployer votre agent afin de pouvoir l’utiliser en production.
Conclusion
Dans cet article, vous avez vu comment créer des agents IA Dataiku et les étendre avec un accès web réel en utilisant le Web MCP de Bright Data. En particulier, vous avez vu comment et pourquoi intégrer un agent Dataiku avec les outils Web MCP pour ancrer ses résultats dans des données web en direct et vérifiables.
Cette intégration amène les agents Dataiku au niveau supérieur. Elle leur permet de rechercher sur le web, de découvrir de nouvelles sources de manière autonome, d’extraire des données structurées et d’interagir avec des sites web réels en temps réel.
Inscrivez-vous gratuitement à Bright Data dès aujourd’hui et commencez à intégrer des outils web prêts pour l’IA !