AI

Améliorez Databricks Agent Bricks avec le Web MCP de Bright Data

Découvrez comment l’intégration du Web MCP de Bright Data dote les agents IA Databricks d’un accès aux données web en temps réel pour des flux de travail plus intelligents et mieux informés.
12 min de lecture
Databricks Agent Bricks with Bright Data

Dans cet article de blog, vous apprendrez :

  • Ce qu’est Databricks Agent Bricks et la valeur qu’il apporte au développement d’agents IA.
  • Pourquoi les agents IA Databricks deviennent bien plus puissants lorsqu’ils peuvent combiner des données métier internes avec une intelligence web externe.
  • Comment équiper un agent IA dans Agent Bricks de ces capacités en le connectant au Web MCP de Bright Data.

Plongeons dans le vif du sujet !

Qu’est-ce que Databricks Agent Bricks ?

Databricks Agent Bricks

Agent Bricks est un service Databricks permettant de créer, déployer et gouverner des agents IA de niveau production, ancrés dans les données de votre entreprise. En combinant le contexte d’entreprise, les modèles IA et les outils externes, il permet aux organisations de créer des agents IA fiables, évolutifs et gouvernés.

Il est particulièrement utile pour des scénarios tels que l’analyse de documents, le support client, la recherche, l’automatisation des flux de travail et l’intelligence d’affaires. Les principales fonctionnalités qu’il offre sont :

  • Agents IA orientés entreprise : Utilise les schémas métier, les définitions et le contexte sémantique pour générer des réponses plus précises et mieux ancrées.
  • Plusieurs types d’agents : Prend en charge les assistants de connaissances, les pipelines d’extraction d’informations, les agents superviseurs pour les flux de travail multi-étapes et les agents Python entièrement personnalisés.
  • Support multi-modèles : Accédez aux modèles d’OpenAI, Anthropic, Google, Meta et des fournisseurs open source via une plateforme unique avec logique de commutation et de repli de modèles.
  • Intégrations externes : Se connecte aux serveurs MCP, aux API et aux systèmes d’entreprise pour étendre les capacités des agents au-delà des données internes.
  • Gouvernance et sécurité : S’intègre à Unity Catalog pour appliquer les permissions, la traçabilité, la propriété et le contrôle d’accès granulaire.
  • Évaluation et observabilité : Inclut des benchmarks automatisés, une évaluation LLM-as-a-judge et le traçage MLflow pour le débogage et la surveillance.

Pourquoi les agents IA Databricks ont besoin d’accéder au web

Quelle que soit la plateforme utilisée pour les créer, les agents IA d’entreprise ne sont aussi performants que les outils auxquels ils peuvent accéder. Cela s’explique par le fait que tous les LLM partagent deux limitations fondamentales :

  • Connaissances limitées : Les LLM sont entraînés sur des jeux de données statiques qui ne représentent qu’un instantané du passé.
  • Aucun accès natif aux systèmes externes : Par défaut, les LLM ne peuvent pas interagir avec le web ni avec d’autres services de votre stack technologique.

Cette lacune est comblée en équipant les agents IA d’outils, généralement via MCP ou des intégrations personnalisées. Voici pourquoi Databricks Agent Bricks prend en charge MCP.

Pour répondre à ces deux limitations, vous avez besoin d’un MCP qui permet aux agents IA de rechercher sur le web, de découvrir des informations pertinentes et d’extraire du contenu de sites web. C’est exactement ce que fournit le Web MCP de Bright Data.

Le Web MCP de Bright Data comme solution

Le Web MCP de Bright Data expose des outils qui se connectent aux API de Bright Data. C’est l’une des intégrations officiellement prises en charge dans Databricks, ce qui signifie que vous pouvez même la trouver directement sur le Databricks Marketplace :

Le Web MCP de Bright Data sur le Databricks Marketplace

Sur le niveau gratuit Rapid mode (qui inclut 5 000 requêtes gratuites par mois), les outils disponibles du Web MCP comprennent :

Outil Description
search_engine + version batch Récupère des résultats de moteur de recherche structurés en JSON ou Markdown depuis Google, Bing, Yandex et plus
scrape_as_markdown + version batch Convertit n’importe quelle page web en Markdown propre tout en contournant les protections anti-bot
discover Découverte web propulsée par l’IA qui retourne des résultats pertinents et classés

[Pro mode](https://github.com/brightdata/brightdata-mcp?tab=readme-ov-file#-pricing, modes) débloque des capacités avancées d’extraction structurée pour des plateformes telles qu’Amazon, LinkedIn, Yahoo Finance, YouTube, Zillow, Google Maps et plus de 40 sources. Il inclut également des outils d’automatisation de navigateur. Découvrez tous les outils du Web MCP.

Ce qui distingue Bright Data, c’est son infrastructure de niveau entreprise, soutenue par un réseau de proxys résidentiels de plus de 400 millions d’IPs résidentielles. Cela permet une évolutivité et une simultanéité illimitées, avec un taux de réussite de 99,95 % et une disponibilité garantie par SLA de 99,99 %.

Comment connecter Databricks Agent Bricks au Web MCP de Bright Data

Dans ce chapitre étape par étape, vous serez guidé tout au long du processus de configuration du Web MCP dans Databricks. Vous apprendrez ensuite comment l’intégrer dans un agent IA Databricks dans Agent Bricks pour activer les capacités de recherche web, de découverte et de scraping.

Remarque : Si vous cherchez comment accéder et interroger les jeux de données Bright Data dans Databricks, lisez plutôt notre article de blog dédié.

Suivez les instructions ci-dessous !

Prérequis

Pour compléter cette section du tutoriel, assurez-vous d’avoir :

Pour une expérience plus fluide, il est recommandé d’avoir également :

Étape #1 : Installer le Web MCP de Bright Data

Connectez-vous à votre compte Databricks. Vous devriez voir le tableau de bord de l’espace de travail principal :

Le tableau de bord de l'espace de travail Databricks

Rappellez-vous que le Web MCP de Bright Data est une intégration officiellement prise en charge disponible sur le Databricks Marketplace. Dans la barre latérale gauche, sélectionnez l’option « Marketplace », puis appuyez sur « View MCP listings » :

Appuyer sur le bouton « View MCP listings »

Vous serez redirigé vers le Databricks Marketplace. Dans la barre de recherche, tapez « bright data » et sélectionnez la fiche « The web MCP » :

Sélectionner la carte « The web MCP »

Sur la page Bright Data « The web MCP », examinez les détails et cliquez sur « Install » pour l’ajouter à votre espace de travail :

Installation du Web MCP dans votre espace de travail Databricks

Assurez-vous de remplir le formulaire d’installation avec les informations suivantes :

  • Connection name : bright-data-web-mcp (ou le nom que vous préférez)
  • Host : https://mcp.brightdata.com (Important : Vérifiez que l’URL proposée correspond bien à celle-ci)
  • Base path : /mcp
  • Bearer token : Collez votre clé API Bright Data
  • Credential type : Bearer token
  • Port : 433

Enfin, cliquez sur « Install » pour ajouter le Web MCP de Bright Data à votre espace de travail Databricks via l’intégration officielle. Excellent !

Étape #2 : Autoriser les connexions aux serveurs Bright Data

Après l’installation, vous serez redirigé vers la page bright-data-web-mcp. Cependant, vous remarquerez peut-être qu’aucun outil n’est détecté pour le serveur MCP configuré :

Remarquez qu'aucun outil n'a été trouvé

Cela se produit parce que Databricks bloque par défaut les connexions sortantes vers des domaines externes, y compris mcp.brightdata.com (requis pour le serveur Web MCP).

Pour référence, l’erreur technique sous-jacente est :

"Failed request to https://mcp.bringthdata.com:443/mcp. Error: Access to mcp.bringthdata.com is denied because of serverless network policy."

Pour corriger cela, vous devez explicitement autoriser l’accès à mcp.brightdata.com pour le trafic sortant serverless dans les paramètres de votre compte Databricks. Commencez par ouvrir le menu déroulant de l’espace de travail en haut à droite et sélectionnez « Manage account » :

Sélectionner l'option « Manage account »

Accédez à la section « Security », sélectionnez « Serverless egress control » et cliquez sur « Create new network policy » :

Cliquer sur « Create new network policy »

Donnez un nom à la politique (par exemple, bright-data-mcp) et choisissez l’option « Restricted access to specific destinations ». Ajoutez ensuite mcp.brightdata.com comme destination autorisée via le bouton « Add destination » :

Configuration de « mcp.brightdata.com » comme domaine approuvé

Activez la politique pour tous les produits serverless Databricks et cliquez sur « Create » :

Création de la nouvelle politique réseau

Ensuite, accédez à la page Workspaces, sélectionnez votre espace de travail et cliquez sur l’icône de modification dans la section déroulante « Networking ». Définissez la politique réseau sur bright-data-mcp, puis cliquez sur « Save » :

Définition de la politique réseau requise dans votre espace de travail Databricks

Retournez à la page bright-data-web-mcp et actualisez-la. Vous devriez maintenant voir Databricks charger avec succès les outils du Web MCP :

Notez les outils chargés

Ces outils correspondent aux capacités exposées par le Web MCP en mode Rapid (gratuit). Bravo !

Étape #3 : Vérifier que la connexion Web MCP fonctionne

Sur la page bright-data-web-mcp, cliquez sur « Try in Playground ». Cela ouvre une interface de chat IA avec le serveur MCP déjà configuré.

Posez une question simple, par exemple :

Scrape the https://example.com page as Markwon

Vous devriez voir l’IA appeler de manière autonome l’outil Web MCP scrape_as_markdown sur l’URL spécifiée pour accomplir la tâche :

Notez l'utilisation de l'outil « scrape_as_markdown »

Le Markdown retourné (récupéré via l’outil scrape_as_markdown alimenté par l’API Web Unlocker de Bright Data) correspond au contenu visible sur la page cible :

La page example.com

Cela confirme que l’IA utilise correctement les outils du Web MCP et que l’intégration fonctionne comme prévu. Parfait !

Étape #4 : Définir votre agent IA Databricks

Pour accéder au service Databricks Agent Bricks, cliquez sur « Agents » dans la barre latérale gauche. Ajoutez ensuite un nouvel agent IA en appuyant sur « Create Agent » :

Appuyer sur le bouton « Create Agent »

Il vous sera demandé de choisir le type d’agent que vous souhaitez créer. Pour ce tutoriel, sélectionnez « Supervisor Agent » :

Sélectionner l'option « Supervisor Agent »

Un agent superviseur est un système d’orchestration multi-agents qui coordonne des agents IA et des outils pour résoudre des tâches plus complexes.

Pour connecter le Web MCP de Bright Data, cliquez sur « Add an External MCP » dans la section « Tools and subagents » :

Appuyer sur le bouton « Add an External MCP »

Ensuite, sélectionnez la connexion bright-data-web-mcp que vous avez configurée précédemment :

Sélectionner la connexion « bright-data-web-mcp »

Votre agent aura désormais accès aux outils du Web MCP de Bright Data. Vous pouvez répéter le même processus pour ajouter des outils supplémentaires, des serveurs MCP, des Genie Spaces ou d’autres intégrations.

Dans cet exemple, l’agent a également été connecté à « Bakehouse Sales Starter Space », un Genie Space intégré lié au jeu de données Delta samples.bakehouse.

L'agent IA Databricks configuré

Important : En production, configurez l’agent pour utiliser des Genie Spaces personnalisés connectés à vos propres jeux de données Databricks. Vous devriez également personnaliser le nom, les instructions et la description de l’agent pour mieux l’adapter à votre cas d’usage spécifique.

Super ! La seule étape restante est de tester votre agent IA Databricks alimenté par le Web MCP.

Étape #5 : Tester l’agent

Pour vérifier que votre agent IA Databricks fonctionne correctement, essayez une tâche qui combine des données métier internes avec une intelligence web externe. Par exemple, écrivez :

Retrieve our revenue for May 2024. Then search online for bakery industry revenue data for the same period. Scrape the most relevant sources and produce a report highlighting both internal revenue performance and external market insights, including trends, expectations, and overall industry conditions.

Exécutez le prompt et vous devriez voir quelque chose comme ceci :

Exécution du prompt

Plus précisément, l’agent IA Databricks :

  1. A interrogé « Bakehouse Sales Starter Space » pour récupérer les données de revenus pour la période demandée.
  2. A appelé l’outil search_engine du Web MCP de Bright Data (alimenté par l’API SERP de Bright Data) pour recueillir des résultats de recherche pertinents depuis Google sur les performances du secteur de la boulangerie.
  3. A identifié les sources les plus pertinentes parmi les résultats retournés.
  4. A extrait le contenu de ces pages en utilisant l’outil scrape_as_markdown.
  5. A combiné les informations externes avec les données métier internes pour générer un rapport unifié.
Le rapport produit

Remarquez que le résultat final mélange des informations métier propriétaires avec une intelligence de marché à jour. Sans le Web MCP, cela ne serait pas possible, car les LLM n’ont pas d’accès natif au web.

Le Web MCP comble cette lacune, permettant à votre agent IA Databricks de rechercher sur le web, de découvrir des sources pertinentes et d’extraire des informations de sites web, y compris des pages complexes ou protégées. Tout cela fonctionne sur l’infrastructure de niveau entreprise de Bright Data, conçue pour l’évolutivité et la simultanéité.

Et voilà ! Cet exemple ne fait qu’effleurer la surface de ce que vous pouvez construire. En combinant les agents IA Databricks avec le Web MCP de Bright Data, vous pouvez créer des flux de travail bien plus avancés qui intègrent des analyses internes avec des données web en temps réel pour un large éventail de cas d’usage.

Conclusion

Dans ce tutoriel, vous avez appris ce qu’est Databricks Agent Bricks et les fonctionnalités qu’il prend en charge. Vous avez notamment vu comment créer un agent IA Databricks et le connecter au Web MCP de Bright Data.

Grâce à cette intégration, les agents IA Databricks accèdent au web pour la recherche, l’ancrage, l’enrichissement des données et bien d’autres tâches. Cela vous permet de combiner les données Databricks internes avec une intelligence externe prête pour l’entreprise, ouvrant la voie à des analyses plus approfondies et plus riches.

Pour des scénarios plus avancés, explorez la gamme complète des solutions Bright Data conçues pour les écosystèmes IA.

Créez un compte Bright Data dès aujourd’hui et commencez à construire avec des outils de données web prêts pour l’IA !