Évaluations et observabilité – Mesurez ce qui compte
Nous sommes arrivés au dernier jour de la semaine de lancement. Au cours des quatre derniers jours, nous vous avons fourni les outils nécessaires pour créer des agents IA de qualité production :
- Jour 1: Groupes d’outils pour éliminer la pollution contextuelle
- Jour 2: Outils personnalisés pour une précision chirurgicale
- Jour 3: Optimisation des jetons pour maximiser l’efficacité
- Jour 4: Intégrations d’entreprise pour briser les silos
Aujourd’hui, nous répondons à l’une des demandes les plus fréquentes de nos clients : comment savoir si votre agent fonctionne comme prévu ?
Nous lançons : le cadre d’évaluation et le tableau de bord d’observabilité.
Le défi : visibilité sur le comportement de l’agent
Vous avez créé un agent e-commerce. Vous l’avez adapté aux outils appropriés. Vous avez optimisé l’utilisation des jetons. Vous avez désormais besoin de visibilité sur la production :
- Quels outils sont réellement utilisés ?
- Les outils sont-ils utilisés correctement ?
- Où les agents échouent-ils ?
- Quelle est votre utilisation et votre coût réels ?
- Quel est l’impact des nouvelles configurations d’outils sur les taux de réussite ?
Sans visibilité, vous avancez à l’aveuglette. Vous ne pouvez pas optimiser ce que vous ne pouvez pas mesurer.
Cela est particulièrement important lorsque vous travaillez avec des groupes d’outils. Lorsque vous passez de groups=ecommerce à une sélection d’outils personnalisée, avez-vous accidentellement interrompu un flux de travail essentiel ? Vous ne le saurez pas tant qu’un client ne se plaindra pas.
La solution : une visibilité à deux niveaux
Nous avons mis au point une pile de visibilité complète avec deux systèmes complémentaires :
1. Cadre d’évaluation MCP (développement et test)
Cadre de test automatisé alimenté par mcpjam qui valide le comportement des agents avant la mise en production
2. Tableau de bord d’observabilité (surveillance de la production)
Tableau de bord d’analyse de l’utilisation en temps réel dans le panneau de contrôle de Bright Data qui suit chaque appel API en production
Examinons chaque couche en détail.
Couche 1 : Cadre d’évaluation MCP
Qu’est-ce que mcpjam ?
mcpjam est l’interface CLI d’évaluation officielle pour les serveurs Model Context Protocol. Considérez-le comme un « test d’intégration pour les agents IA ».
Vous rédigez des cas de test sous forme de requêtes en langage naturel, vous spécifiez les outils à appeler, et mcpjam exécute automatiquement votre agent tout au long du workflow.
Comment nous l’utilisons
Nous avons créé une suite d’évaluation complète pour chaque groupe d’outils que nous avons livré le premier jour. Lorsque vous configurez une nouvelle sélection d’outils, vous pouvez exécuter ces évaluations pour vérifier que tout fonctionne avant le déploiement.
Structure du projet
mcp-evals/
├── server-configs/ # Configurations de connexion au serveur par groupe d'outils
│ ├── server-config.ecommerce.json
│ ├── server-config.social.json
│ ├── server-config.business.json
│ ├── server-config.browser.json
│ └── ...
├── tool-groups.json/ # Cas de test par groupe d'outils
│ ├── tool-groups.ecommerce.json
│ ├── tool-groups.social.json
│ ├── tool-groups.business.json
│ ├── tool-groups.browser.json
│ └── ...
└── llms.json # Clés API du fournisseur LLM
Chaque groupe d’outils dispose de sa propre suite de tests avec des requêtes réelles que les agents doivent être capables de traiter.
Exemple : Évaluation du commerce électronique
Extrait de mcp-evals/tool-groups.json/tool-groups.ecommerce.json:
{
"title": "Test E-commerce - Recherche de produits Amazon",
"query": "Recherchez des écouteurs sans fil sur Amazon et affichez-moi les meilleurs produits avec des avis",
"runs": 1,
"model": "gpt-5.1-2025-11-13",
"provider": "openai",
"expectedToolCalls": ["web_data_amazon_product_search"],
"selectedServers": ["ecommerce-server"],
« advancedConfig » : {
« instructions » : « Vous êtes un assistant commercial qui aide les utilisateurs à trouver des produits sur Amazon »,
« temperature » : 0,1,
« maxSteps » : 5,
« toolChoice » : « required »
}
}
Ce test valide que :
- L’agent interprète correctement la requête de l’utilisateur
- Il appelle le bon outil (
web_data_amazon_product_search) - Il transmet les paramètres appropriés (mot-clé du produit, URL Amazon)
- Il s’exécute dans le délai configuré
- Il renvoie une réponse cohérente
Exécution des évaluations : démarrage rapide
Installez mcpjam :
npm install -g @mcpjam/cli
Exécutez les tests du groupe d’outils e-commerce :
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Résultat attendu :
Exécution des tests
Connecté à 1 serveur : ecommerce-server
13 outils trouvés au total
Exécution de 2 tests
Test 1 : Test e-commerce - Recherche de produits Amazon
Utilisation de openai:gpt-5.1-2025-11-13
exécution 1/1
utilisateur : Recherchez des écouteurs sans fil sur Amazon et montrez-moi les meilleurs produits avec des avis
[tool-call] web_data_amazon_product_search
{
« keyword » : « écouteurs sans fil »,
« url » : « https://www.amazon.com »
}
[tool-result] web_data_amazon_product_search
{
« content » : [...]
}
assistant : Voici quelques-uns des meilleurs casques sans fil actuellement disponibles sur Amazon...
Attendu : [web_data_amazon_product_search]
Réel : [web_data_amazon_product_search]
PASS (23,8 s)
Jetons • entrée 20923 • sortie 1363 • total 22286
Ce qui est testé
Nous avons créé des suites d’évaluation pour les 8 groupes d’outils dès le premier jour :
| Groupe d’outils | Couverture du test | Exemples de requêtes |
|---|---|---|
| Commerce électronique | Recherches de produits sur Amazon, Walmart, Best Buy | « Comparer les prix de l’iPhone 15 chez différents détaillants » |
| Réseaux sociaux | Contenu TikTok, publications Instagram, tendances Twitter | « Trouver les vidéos TikTok tendance sur l’IA » |
| Entreprise | Profils LinkedIn, données de financement Crunchbase, emplacements Google Maps | « Trouver le profil LinkedIn du PDG de Microsoft » |
| Recherche | Référentiels GitHub, actualités Reuters, sources universitaires | « Trouvez les dépôts Python pour le Scraping web avec plus de 1 000 étoiles » |
| finance | Données boursières, tendances du marché, actualités financières | « Obtenir le dernier cours de l’action NVIDIA » |
| app_stores | App Store iOS, avis et évaluations Google Play | « Trouvez les applications de méditation les mieux notées sur iOS » |
| navigateur | Workflows d’automatisation du navigateur de scraping | « Accédez à Amazon et ajoutez un article à votre panier » |
| advanced_scraping | Opérations par lots, scraping personnalisé | « Récupérer les données produit d’un site web personnalisé » |
Chaque suite de tests contient 2 à 5 cas de test principaux couvrant les flux de travail les plus courants pour ce domaine.
Pourquoi est-ce important ?
Les évaluations vous offrent :
- Tests de régression: exécutez des évaluations après chaque modification de configuration pour vous assurer que vous n’avez pas perturbé les workflows existants.
- Benchmarking des performances: suivez l’utilisation des jetons et la latence sur différents modèles LLM
- Validation des outils: vérifiez que la logique de sélection des outils fonctionne correctement.
- Documentation: les cas de test servent d’exemples exécutables de ce que votre agent peut faire
Avant les groupes d’outils Day 1, nous n’avions aucun moyen systématique de tester si le passage de groups=ecommerce à groups=ecommerce,social perturberait le comportement de l’agent. Maintenant, c’est possible.
Couche 2 : Tableau de bord d’observabilité
Surveillance de la production en temps réel
Alors que les évaluations gèrent les tests avant le déploiement, le tableau de bord d’observabilité vous offre une visibilité en temps réel sur l’utilisation en production.
Nous avons intégré un nouveau panneau d’utilisation MCP dans le panneau de contrôle de Bright Data qui suit chaque appel API effectué via votre serveur MCP.
Ce que vous voyez
Le tableau de bord affiche un tableau d’utilisation complet avec :
| Date | Outil | Nom du client | URL | Statut |
|---|---|---|---|---|
| 26/11/2025 14:32:15 | web_data_amazon_product | my-ecommerce-agent | https://amazon.com/… | Succès |
| 26/11/2025 14:31:52 | search_engine | mon-bot-de-recherche | N/A | Succès |
| 26/11/2025 14:30:18 | web_data_linkedin_person_profile | agent-de-prospection | https://linkedin.com/in/… | Succès |
| 26/11/2025 14:29:03 | scraping_browser_navigate | agent-d’automatisation | https://example.com | Échec |
Indicateurs clés
1. Répartition de l’utilisation des outils
Découvrez quels outils sont les plus fréquemment utilisés :
web_data_amazon_product : 1 243 appels
search_engine : 892 appels
web_data_linkedin_person_profile : 634 appels
scrape_as_markdown : 421 appels
Cela vous indique quels jeux de données sont les plus utiles à vos agents. Si vous payez pour des groupes d’outils inutilisés, vous le verrez ici.
2. Identification du client
Chaque instance d’agent peut être associée à un nom de client (via le paramètre client_name dans l’URL de connexion) :
npx -y @brightdata/mcp
Le tableau de bord regroupe l’utilisation par client, ce qui vous permet de suivre les coûts par agent/flux de travail.
3. Taux de réussite vs taux d’échec
Surveillez la fiabilité des agents :
Nombre total de requêtes : 3 190
Réussies : 3 102 (97,2 %)
Échouées : 88 (2,8 %)
Cliquez sur les demandes échouées pour voir les détails de l’erreur et déboguer les problèmes.
4. Suivi des URL
Pour les outils de jeux de données, le tableau de bord affiche les URL/ressources qui ont été consultées. Cela vous aide à :
- Identifier les problèmes de limitation de débit (trop de requêtes vers le même domaine)
- Suivre les produits/profils/pages spécifiques qui sont récupérés
- Vérifier la conformité (vous assurer que les agents n’accèdent pas à des sites restreints)
Comment y accéder
- Connectez-vous au panneau de contrôle Bright Data
- Accédez à « Utilisation MCP » (nouvelle section dans la barre latérale)
- Consultez les données d’utilisation en temps réel pour toutes vos connexions MCP
Filtres :
- Période (dernières 24 heures, 7 jours, 30 jours, personnalisée)
- Nom de l’outil (filtre par outils spécifiques)
- Nom du client (filtrer par instance d’agent)
- Statut (réussite/échec)
Exportation :
Téléchargez les données d’utilisation au format CSV pour une analyse plus approfondie ou une intégration dans un outil BI.
Workflow combiné : Développement → Production
Voici comment les deux systèmes fonctionnent ensemble :
Phase 1 : Développement (pré-déploiement)
- Configurez les groupes d’outils à l’aide de la fonctionnalité Day 1
pnx -y @brightdata/mcp - Exécutez les évaluations pour valider
la sélectiondes outilsmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json - Vérifiez les résultats: assurez-vous que tous les tests sont réussis
- L’utilisation des jetons est conforme au budget
- Les outils appropriés sont utilisés
- Les réponses sont exactes
- Itération: si les tests échouent, ajustez la sélection des outils ou les invites du système
Phase 2 : Production (après le déploiement)
- Déployer l’agent avec le nom du client
taggingnpx -y @brightdata/mcp - Tableau de bord de surveillance: vérifiez l’utilisation en temps réel
- Les taux de réussite correspondent-ils aux résultats de l’évaluation ?
- Des outils inattendus sont-ils appelés ?
- Y a-t-il des problèmes de limitation de débit ou d’authentification ?
- Analysez les tendances: au fil du temps, recherchez :
- Pics d’utilisation (besoin d’évoluer ?)
- Changements dans les schémas de défaillance (dégradation des outils ?)
- Anomalies de coûts (optimisation de l’utilisation des jetons)
- Optimiser: utilisez les informations du tableau de bord pour affiner la sélection des outils
- Supprimer les outils inutilisés (réduire les coûts liés aux jetons)
- Ajouter les outils manquants (améliorer les taux de réussite)
- Ajuster les limites de débit (éviter la limitation)
- Réexécutez les évaluations: après toute modification de configuration, réexécutez les évaluations pour vous assurer qu’il n’y a pas de régression
Statistiques de performance : récapitulatif de la semaine de lancement
Résumons tout cela. Voici l’impact cumulé des 5 jours :
Jour 1 : groupes d’outils
Impact: réduction de 60 % des jetons d’invite système
Exemple: suite complète (plus de 200 outils) → groupe unique (25 outils)
Économie de jetons: environ 8 000 jetons par demande (invite système)
Jour 2 : Outils personnalisés
Impact: réduction de 85 % par rapport à la suite complète lors de la sélection de 4 outils spécifiques
Exemple: suite complète (plus de 200 outils) → personnalisée (4 outils)
Économie de jetons: environ 9 500 jetons par demande (invite système)
Jour 3 : Optimisation des jetons
Impact: réduction de 30 à 60 % des jetons de réponse des outils
Exemple: outils de Scraping web + outils de jeux de données dans un workflow unique
Économie de jetons: environ 10 250 jetons par requête (résultats des outils)
Effet combiné : flux de travail d’agent e-commerce
Scénario: « Trouver les 5 meilleurs casques Amazon à moins de 100 $, résumer les avis »
| Configuration | Invite système | Résultats de l’outil | Total des jetons | Coût par requête |
|---|---|---|---|---|
| Suite complète (sans optimisation) | 15 000 | 22 500 | 37 500 | 0,45 |
| + Groupes d’outils | 6 000 | 22 500 | 28 500 | 0,34 |
| + Outils personnalisés | 2 250 | 22 500 | 24 750 | 0,30 |
| + Optimisation des jetons | 2 250 | 12 250 | 14 500 | 0,17 |
Réduction totale: 61,3 % de jetons en moins, 62,2 % de coûts en moins
À raison de 1 000 requêtes par jour, cela représente une économie de 280 $ par jour, soit 102 200 $ par an.
Jour 4 : Intégrations d’entreprise
Impact: élimination des frais généraux liés à l’ETL personnalisé
Gain de temps: plusieurs semaines de travail d’ingénierie → quelques minutes de configuration
Maintenance: zéro (prise en charge par Bright Data)
Jour 5 : Évaluations + Observabilité
Impact: contrôle qualité proactif + visibilité sur la production
Réduction des défaillances: amélioration de 10 à 15 % des taux de réussite (grâce à la détection précoce des problèmes)
Économie de coûts: détection des régressions avant la production (évitant des centaines de requêtes échouées)
Essayez-le : commencez dès aujourd’hui
Étape 1 : lancez votre première évaluation
# Installez mcpjam
npm install -g @mcpjam/cli
# Clonez le dépôt Web MCP
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse
# Configurez vos clés API dans mcp-evals/llms.json
# Configurez votre jeton Bright Data dans les configurations du serveur
# Exécutez les évaluations e-commerce
mcpjam evals run
-t mcp-evals/tool-groups.json/tool-groups.ecommerce.json
-e mcp-evals/server-configs/server-config.ecommerce.json
-l mcp-evals/llms.json
Étape 2 : Accédez au tableau de bord d’observabilité
- Inscrivez-vous sur Bright Data
- Accédez à « MCP Usage » (Utilisation MCP) dans le panneau de configuration
- Déployez un agent et observez les données d’utilisation en temps réel s’afficher
Étape 3 : Répétez l’opération
Utilisez les évaluations pour tester les configurations. Utilisez le tableau de bord pour surveiller la production. Répétez l’opération.
Ressources
Évaluations MCP :
- mcpjam GitHub — CLI d’évaluation officielle
- Protocole de contexte de modèle — Spécification MCP officielle
Tableau de bord d’observabilité :
- Panneau de contrôle Bright Data — Accédez à votre tableau de bord d’utilisation
- Documentation API — Référence API complète
Serveur Web MCP :
- Référentiel GitHub — Code serveur open source
- Paquet NPM — Installation via npm
Récapitulatif de la semaine de lancement :
- Jour 1 : Groupes d’outils— Éliminer la pollution contextuelle
- Jour 2 : Outils personnalisés— Sélection chirurgicale des outils
- Jour 3 : Optimisation des jetons— Maximiser l’efficacité
- Jour 4 : Intégrations d’entreprise— Briser les silos
- Jour 5 : Évaluations et observabilité — Mesurer ce qui compte (vous êtes ici)
Semaine de lancement : un dernier mot
Cinq jours. Cinq versions majeures. Une seule mission : rendre les agents IA prêts pour la production.
Nous sommes partis du constat que la pollution contextuelle est le principal obstacle dans les workflows des agents. Nous vous avons fourni des groupes d’outils pour définir votre contexte.
Puis nous avons réalisé que même les groupes n’étaient pas assez précis. Nous avons livré des outils personnalisés pour une précision chirurgicale.
Nous nous sommes ensuite attaqués au côté sortie : les réponses saturées de jetons. Nous avons intégré le strip-markdown via Strip-Markdown et le nettoyage intelligent des charges utiles avec Parsed Light.
Après cela, nous avons intégré Bright Data aux plateformes réellement utilisées par les entreprises : Google ADK, IBM watsonx, Databricks et Snowflake.
Et aujourd’hui, nous avons bouclé la boucle avec des évaluations et l’observabilité. Car on ne peut pas améliorer ce qu’on ne peut pas mesurer.
Voici la pile complète pour les agents IA de production :
- Groupes d’outils → Réduire la pollution contextuelle
- Outils personnalisés → Maximiser la précision
- Optimisation des jetons → Minimiser les coûts
- Intégrations d’entreprise → Déployer partout
- Évaluations + Observabilité → Maintenir la qualité
Merci
À tous ceux qui nous ont suivis cette semaine : merci.
Aux développeurs qui créent la prochaine génération d’agents IA : nous sommes impatients de voir ce que vous allez créer.
À toutes les entreprises qui déploient l’IA à grande échelle : nous sommes là pour vous aider à la rendre fiable.
Et à la communauté open source qui a rendu MCP possible : ce n’est que le début.
Construisons ensemble l’avenir de l’IA.