Evaluations & Observability - Measure What Matters

Évaluations et observabilité – Mesurez ce qui compte

Nous sommes arrivés au dernier jour de la semaine de lancement. Au cours des quatre derniers jours, nous vous avons fourni les outils nécessaires pour créer des agents IA de qualité production :

Jour 1: Groupes d’outils pour éliminer la pollution contextuelle
Jour 2: Outils personnalisés pour une précision chirurgicale
Jour 3: Optimisation des jetons pour maximiser l’efficacité
Jour 4: Intégrations d’entreprise pour briser les silos

Aujourd’hui, nous répondons à l’une des demandes les plus fréquentes de nos clients : comment savoir si votre agent fonctionne comme prévu ?

Nous lançons : le cadre d’évaluation et le tableau de bord d’observabilité.

Le défi : visibilité sur le comportement de l’agent

Vous avez créé un agent e-commerce. Vous l’avez adapté aux outils appropriés. Vous avez optimisé l’utilisation des jetons. Vous avez désormais besoin de visibilité sur la production :

Quels outils sont réellement utilisés ?
Les outils sont-ils utilisés correctement ?
Où les agents échouent-ils ?
Quelle est votre utilisation et votre coût réels ?
Quel est l’impact des nouvelles configurations d’outils sur les taux de réussite ?

Sans visibilité, vous avancez à l’aveuglette. Vous ne pouvez pas optimiser ce que vous ne pouvez pas mesurer.

Cela est particulièrement important lorsque vous travaillez avec des groupes d’outils. Lorsque vous passez de groups=ecommerce à une sélection d’outils personnalisée, avez-vous accidentellement interrompu un flux de travail essentiel ? Vous ne le saurez pas tant qu’un client ne se plaindra pas.

La solution : une visibilité à deux niveaux

Nous avons mis au point une pile de visibilité complète avec deux systèmes complémentaires :

1. Cadre d’évaluation MCP (développement et test)

Cadre de test automatisé alimenté par mcpjam qui valide le comportement des agents avant la mise en production

2. Tableau de bord d’observabilité (surveillance de la production)

Tableau de bord d’analyse de l’utilisation en temps réel dans le panneau de contrôle de Bright Data qui suit chaque appel API en production

Examinons chaque couche en détail.

Couche 1 : Cadre d’évaluation MCP

Qu’est-ce que mcpjam ?

mcpjam est l’interface CLI d’évaluation officielle pour les serveurs Model Context Protocol. Considérez-le comme un « test d’intégration pour les agents IA ».

Vous rédigez des cas de test sous forme de requêtes en langage naturel, vous spécifiez les outils à appeler, et mcpjam exécute automatiquement votre agent tout au long du workflow.

Comment nous l’utilisons

Nous avons créé une suite d’évaluation complète pour chaque groupe d’outils que nous avons livré le premier jour. Lorsque vous configurez une nouvelle sélection d’outils, vous pouvez exécuter ces évaluations pour vérifier que tout fonctionne avant le déploiement.

Structure du projet

mcp-evals/
├── server-configs/           # Configurations de connexion au serveur par groupe d'outils
│   ├── server-config.ecommerce.json
│   ├── server-config.social.json
│   ├── server-config.business.json
│   ├── server-config.browser.json
│   └── ...
├── tool-groups.json/         # Cas de test par groupe d'outils
│   ├── tool-groups.ecommerce.json
│   ├── tool-groups.social.json
│   ├── tool-groups.business.json
│   ├── tool-groups.browser.json
│   └── ...
└── llms.json                 # Clés API du fournisseur LLM

Chaque groupe d’outils dispose de sa propre suite de tests avec des requêtes réelles que les agents doivent être capables de traiter.

Exemple : Évaluation du commerce électronique

Extrait de mcp-evals/tool-groups.json/tool-groups.ecommerce.json:

{
  "title": "Test E-commerce - Recherche de produits Amazon",
  "query": "Recherchez des écouteurs sans fil sur Amazon et affichez-moi les meilleurs produits avec des avis",
  "runs": 1,
  "model": "gpt-5.1-2025-11-13",
  "provider": "openai",
  "expectedToolCalls": ["web_data_amazon_product_search"],
  "selectedServers": ["ecommerce-server"],
  « advancedConfig » : {
    « instructions » : « Vous êtes un assistant commercial qui aide les utilisateurs à trouver des produits sur Amazon »,
    « temperature » : 0,1,
    « maxSteps » : 5,
    « toolChoice » : « required »
  }
}

Ce test valide que :

L’agent interprète correctement la requête de l’utilisateur
Il appelle le bon outil (web_data_amazon_product_search)
Il transmet les paramètres appropriés (mot-clé du produit, URL Amazon)
Il s’exécute dans le délai configuré
Il renvoie une réponse cohérente

Exécution des évaluations : démarrage rapide

Installez mcpjam :

npm install -g @mcpjam/cli

Exécutez les tests du groupe d’outils e-commerce :

mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Résultat attendu :

Exécution des tests
Connecté à 1 serveur : ecommerce-server
13 outils trouvés au total
Exécution de 2 tests

Test 1 : Test e-commerce - Recherche de produits Amazon
Utilisation de openai:gpt-5.1-2025-11-13

exécution 1/1
utilisateur : Recherchez des écouteurs sans fil sur Amazon et montrez-moi les meilleurs produits avec des avis
[tool-call] web_data_amazon_product_search
{
  « keyword » : « écouteurs sans fil »,
  « url » : « https://www.amazon.com »
}
[tool-result] web_data_amazon_product_search
{
  « content » : [...]
}
assistant : Voici quelques-uns des meilleurs casques sans fil actuellement disponibles sur Amazon...

Attendu : [web_data_amazon_product_search]
Réel :   [web_data_amazon_product_search]
PASS (23,8 s)
Jetons • entrée 20923 • sortie 1363 • total 22286

Ce qui est testé

Nous avons créé des suites d’évaluation pour les 8 groupes d’outils dès le premier jour :

Groupe d’outils	Couverture du test	Exemples de requêtes
Commerce électronique	Recherches de produits sur Amazon, Walmart, Best Buy	« Comparer les prix de l’iPhone 15 chez différents détaillants »
Réseaux sociaux	Contenu TikTok, publications Instagram, tendances Twitter	« Trouver les vidéos TikTok tendance sur l’IA »
Entreprise	Profils LinkedIn, données de financement Crunchbase, emplacements Google Maps	« Trouver le profil LinkedIn du PDG de Microsoft »
Recherche	Référentiels GitHub, actualités Reuters, sources universitaires	« Trouvez les dépôts Python pour le Scraping web avec plus de 1 000 étoiles »
finance	Données boursières, tendances du marché, actualités financières	« Obtenir le dernier cours de l’action NVIDIA »
app_stores	App Store iOS, avis et évaluations Google Play	« Trouvez les applications de méditation les mieux notées sur iOS »
navigateur	Workflows d’automatisation du navigateur de scraping	« Accédez à Amazon et ajoutez un article à votre panier »
advanced_scraping	Opérations par lots, scraping personnalisé	« Récupérer les données produit d’un site web personnalisé »

Chaque suite de tests contient 2 à 5 cas de test principaux couvrant les flux de travail les plus courants pour ce domaine.

Pourquoi est-ce important ?

Les évaluations vous offrent :

Tests de régression: exécutez des évaluations après chaque modification de configuration pour vous assurer que vous n’avez pas perturbé les workflows existants.
Benchmarking des performances: suivez l’utilisation des jetons et la latence sur différents modèles LLM
Validation des outils: vérifiez que la logique de sélection des outils fonctionne correctement.
Documentation: les cas de test servent d’exemples exécutables de ce que votre agent peut faire

Avant les groupes d’outils Day 1, nous n’avions aucun moyen systématique de tester si le passage de groups=ecommerce à groups=ecommerce,social perturberait le comportement de l’agent. Maintenant, c’est possible.

Couche 2 : Tableau de bord d’observabilité

Surveillance de la production en temps réel

Alors que les évaluations gèrent les tests avant le déploiement, le tableau de bord d’observabilité vous offre une visibilité en temps réel sur l’utilisation en production.

Nous avons intégré un nouveau panneau d’utilisation MCP dans le panneau de contrôle de Bright Data qui suit chaque appel API effectué via votre serveur MCP.

Ce que vous voyez

Le tableau de bord affiche un tableau d’utilisation complet avec :

Date	Outil	Nom du client	URL	Statut
26/11/2025 14:32:15	web_data_amazon_product	my-ecommerce-agent	https://amazon.com/…	Succès
26/11/2025 14:31:52	search_engine	mon-bot-de-recherche	N/A	Succès
26/11/2025 14:30:18	web_data_linkedin_person_profile	agent-de-prospection	https://linkedin.com/in/…	Succès
26/11/2025 14:29:03	scraping_browser_navigate	agent-d’automatisation	https://example.com	Échec

Indicateurs clés

1. Répartition de l’utilisation des outils

Découvrez quels outils sont les plus fréquemment utilisés :

web_data_amazon_product : 1 243 appels
search_engine : 892 appels
web_data_linkedin_person_profile : 634 appels
scrape_as_markdown : 421 appels

Cela vous indique quels jeux de données sont les plus utiles à vos agents. Si vous payez pour des groupes d’outils inutilisés, vous le verrez ici.

2. Identification du client

Chaque instance d’agent peut être associée à un nom de client (via le paramètre client_name dans l’URL de connexion) :

npx -y @brightdata/mcp

Le tableau de bord regroupe l’utilisation par client, ce qui vous permet de suivre les coûts par agent/flux de travail.

3. Taux de réussite vs taux d’échec

Surveillez la fiabilité des agents :

Nombre total de requêtes :     3 190
Réussies :         3 102 (97,2 %)
Échouées :                88 (2,8 %)

Cliquez sur les demandes échouées pour voir les détails de l’erreur et déboguer les problèmes.

4. Suivi des URL

Pour les outils de jeux de données, le tableau de bord affiche les URL/ressources qui ont été consultées. Cela vous aide à :

Identifier les problèmes de limitation de débit (trop de requêtes vers le même domaine)
Suivre les produits/profils/pages spécifiques qui sont récupérés
Vérifier la conformité (vous assurer que les agents n’accèdent pas à des sites restreints)

Comment y accéder

Connectez-vous au panneau de contrôle Bright Data
Accédez à « Utilisation MCP » (nouvelle section dans la barre latérale)
Consultez les données d’utilisation en temps réel pour toutes vos connexions MCP

Filtres :

Période (dernières 24 heures, 7 jours, 30 jours, personnalisée)
Nom de l’outil (filtre par outils spécifiques)
Nom du client (filtrer par instance d’agent)
Statut (réussite/échec)

Exportation :

Téléchargez les données d’utilisation au format CSV pour une analyse plus approfondie ou une intégration dans un outil BI.

Workflow combiné : Développement → Production

Voici comment les deux systèmes fonctionnent ensemble :

Phase 1 : Développement (pré-déploiement)

Configurez les groupes d’outils à l’aide de la fonctionnalité Day 1pnx -y @brightdata/mcp
Exécutez les évaluations pour validerla sélection des outilsmcpjam evals run -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json -e mcp-evals/server-configs/server-config.ecommerce.json -l mcp-evals/llms.json
Vérifiez les résultats: assurez-vous que tous les tests sont réussis
- L’utilisation des jetons est conforme au budget
- Les outils appropriés sont utilisés
- Les réponses sont exactes
Itération: si les tests échouent, ajustez la sélection des outils ou les invites du système

Phase 2 : Production (après le déploiement)

Déployer l’agent avec le nom du clienttaggingnpx -y @brightdata/mcp
Tableau de bord de surveillance: vérifiez l’utilisation en temps réel
- Les taux de réussite correspondent-ils aux résultats de l’évaluation ?
- Des outils inattendus sont-ils appelés ?
- Y a-t-il des problèmes de limitation de débit ou d’authentification ?
Analysez les tendances: au fil du temps, recherchez :
- Pics d’utilisation (besoin d’évoluer ?)
- Changements dans les schémas de défaillance (dégradation des outils ?)
- Anomalies de coûts (optimisation de l’utilisation des jetons)
Optimiser: utilisez les informations du tableau de bord pour affiner la sélection des outils
- Supprimer les outils inutilisés (réduire les coûts liés aux jetons)
- Ajouter les outils manquants (améliorer les taux de réussite)
- Ajuster les limites de débit (éviter la limitation)
Réexécutez les évaluations: après toute modification de configuration, réexécutez les évaluations pour vous assurer qu’il n’y a pas de régression

Statistiques de performance : récapitulatif de la semaine de lancement

Résumons tout cela. Voici l’impact cumulé des 5 jours :

Jour 1 : groupes d’outils

Impact: réduction de 60 % des jetons d’invite système
Exemple: suite complète (plus de 200 outils) → groupe unique (25 outils)
Économie de jetons: environ 8 000 jetons par demande (invite système)

Jour 2 : Outils personnalisés

Impact: réduction de 85 % par rapport à la suite complète lors de la sélection de 4 outils spécifiques
Exemple: suite complète (plus de 200 outils) → personnalisée (4 outils)
Économie de jetons: environ 9 500 jetons par demande (invite système)

Jour 3 : Optimisation des jetons

Impact: réduction de 30 à 60 % des jetons de réponse des outils
Exemple: outils de Scraping web + outils de jeux de données dans un workflow unique
Économie de jetons: environ 10 250 jetons par requête (résultats des outils)

Effet combiné : flux de travail d’agent e-commerce

Scénario: « Trouver les 5 meilleurs casques Amazon à moins de 100 $, résumer les avis »

Configuration	Invite système	Résultats de l’outil	Total des jetons	Coût par requête
Suite complète (sans optimisation)	15 000	22 500	37 500	0,45
+ Groupes d’outils	6 000	22 500	28 500	0,34
+ Outils personnalisés	2 250	22 500	24 750	0,30
+ Optimisation des jetons	2 250	12 250	14 500	0,17

Réduction totale: 61,3 % de jetons en moins, 62,2 % de coûts en moins

À raison de 1 000 requêtes par jour, cela représente une économie de 280 $ par jour, soit 102 200 $ par an.

Jour 4 : Intégrations d’entreprise

Impact: élimination des frais généraux liés à l’ETL personnalisé
Gain de temps: plusieurs semaines de travail d’ingénierie → quelques minutes de configuration
Maintenance: zéro (prise en charge par Bright Data)

Jour 5 : Évaluations + Observabilité

Impact: contrôle qualité proactif + visibilité sur la production
Réduction des défaillances: amélioration de 10 à 15 % des taux de réussite (grâce à la détection précoce des problèmes)
Économie de coûts: détection des régressions avant la production (évitant des centaines de requêtes échouées)

Essayez-le : commencez dès aujourd’hui

Étape 1 : lancez votre première évaluation

# Installez mcpjam
npm install -g @mcpjam/cli

# Clonez le dépôt Web MCP
git clone https://github.com/brightdata/brightdata-mcp-sse.git
cd brightdata-mcp-sse

# Configurez vos clés API dans mcp-evals/llms.json
# Configurez votre jeton Bright Data dans les configurations du serveur

# Exécutez les évaluations e-commerce
mcpjam evals run 
  -t mcp-evals/tool-groups.json/tool-groups.ecommerce.json 
  -e mcp-evals/server-configs/server-config.ecommerce.json 
  -l mcp-evals/llms.json

Étape 2 : Accédez au tableau de bord d’observabilité

Inscrivez-vous sur Bright Data
Accédez à « MCP Usage » (Utilisation MCP) dans le panneau de configuration
Déployez un agent et observez les données d’utilisation en temps réel s’afficher

Étape 3 : Répétez l’opération

Utilisez les évaluations pour tester les configurations. Utilisez le tableau de bord pour surveiller la production. Répétez l’opération.

Ressources

Évaluations MCP :

mcpjam GitHub — CLI d’évaluation officielle
Protocole de contexte de modèle — Spécification MCP officielle

Tableau de bord d’observabilité :

Panneau de contrôle Bright Data — Accédez à votre tableau de bord d’utilisation
Documentation API — Référence API complète

Serveur Web MCP :

Référentiel GitHub — Code serveur open source
Paquet NPM — Installation via npm

Récapitulatif de la semaine de lancement :

Jour 1 : Groupes d’outils— Éliminer la pollution contextuelle
Jour 2 : Outils personnalisés— Sélection chirurgicale des outils
Jour 3 : Optimisation des jetons— Maximiser l’efficacité
Jour 4 : Intégrations d’entreprise— Briser les silos
Jour 5 : Évaluations et observabilité — Mesurer ce qui compte (vous êtes ici)

Semaine de lancement : un dernier mot

Cinq jours. Cinq versions majeures. Une seule mission : rendre les agents IA prêts pour la production.

Nous sommes partis du constat que la pollution contextuelle est le principal obstacle dans les workflows des agents. Nous vous avons fourni des groupes d’outils pour définir votre contexte.

Puis nous avons réalisé que même les groupes n’étaient pas assez précis. Nous avons livré des outils personnalisés pour une précision chirurgicale.

Nous nous sommes ensuite attaqués au côté sortie : les réponses saturées de jetons. Nous avons intégré le strip-markdown via Strip-Markdown et le nettoyage intelligent des charges utiles avec Parsed Light.

Après cela, nous avons intégré Bright Data aux plateformes réellement utilisées par les entreprises : Google ADK, IBM watsonx, Databricks et Snowflake.

Et aujourd’hui, nous avons bouclé la boucle avec des évaluations et l’observabilité. Car on ne peut pas améliorer ce qu’on ne peut pas mesurer.

Voici la pile complète pour les agents IA de production :

Groupes d’outils → Réduire la pollution contextuelle
Outils personnalisés → Maximiser la précision
Optimisation des jetons → Minimiser les coûts
Intégrations d’entreprise → Déployer partout
Évaluations + Observabilité → Maintenir la qualité

Merci

À tous ceux qui nous ont suivis cette semaine : merci.

Aux développeurs qui créent la prochaine génération d’agents IA : nous sommes impatients de voir ce que vous allez créer.

À toutes les entreprises qui déploient l’IA à grande échelle : nous sommes là pour vous aider à la rendre fiable.

Et à la communauté open source qui a rendu MCP possible : ce n’est que le début.

Construisons ensemble l’avenir de l’IA.