· GO4IT · IA · 7 min read
Benchmarks, tests métiers, audits : comment les entreprises évaluent vraiment les modèles d'IA
Face à la multiplication des modèles de langage sur le marché, les directions informatiques françaises développent des protocoles d'évaluation sophistiqués qui vont bien au-delà des benchmarks académiques.

En avril 2026, la direction des systèmes d’information d’Airbus a réalisé un test qui en dit long sur l’état du marché de l’IA. Pendant quatre semaines, les équipes de l’avionneur européen ont soumis huit modèles de langage concurrents à une batterie de 1 200 tests métiers spécifiques à l’aéronautique. Résultat : le meilleur modèle sur les benchmarks académiques se classait seulement quatrième sur les critères opérationnels de l’entreprise. Une leçon que les DSI françaises ont retenue : évaluer un modèle d’IA est devenu un métier à part entière.
La fin de la dictature des benchmarks
Pendant des années, les fournisseurs de modèles d’IA se sont affrontés sur des benchmarks publics comme MMLU, HellaSwag, GSM8K ou le classement Chatbot Arena de LMSYS. Ces indicateurs ont leur utilité, mais ils ne prédisent quasiment rien de la performance d’un modèle dans un contexte professionnel réel.
“Un modèle peut obtenir 95% sur MMLU et échouer lamentablement sur une tâche simple comme l’extraction d’une date dans un contrat d’assurance”, observe Pierre-Emmanuel Ferrand, directeur IA d’OVHcloud, qui a publié en février 2026 une méthodologie d’évaluation ouverte pour les entreprises.
Le constat est partagé par l’ensemble de l’écosystème français. Dataiku, la licorne franco-américaine, a lancé en janvier 2026 une plateforme d’évaluation baptisée “Model Benchmark Factory” qui permet aux entreprises de créer leurs propres batteries de tests à partir de leurs données. L’outil a déjà été adopté par une quinzaine de grandes entreprises du CAC 40.
Le problème des benchmarks académiques est double. D’une part, ils sont “contaminés” : les données d’entraînement des modèles les plus récents incluent souvent les corpus de test, ce qui fausse les résultats. D’autre part, ils mesurent des capacités générales de raisonnement qui ne correspondent pas aux besoins opérationnels d’une entreprise.
“Quand Sanofi évalue un modèle pour la recherche pharmaceutique, elle ne lui demande pas de résoudre des problèmes de mathématiques du collège. Elle lui demande d’identifier correctement des interactions médicamenteuses dans un corpus de 10 000 articles scientifiques. Ce sont deux compétences totalement différentes”, explique le Dr. Karim Benyahia de Sanofi.
Les trois piliers de l’évaluation entreprise
Les méthodologies d’évaluation qui émergent dans les DSI françaises s’articulent autour de trois piliers : la précision métier, la robustesse et le coût total.
La précision métier est mesurée via des jeux de données annotés par des experts du domaine. BNP Paribas a ainsi constitué un corpus de 50 000 questions-réponses sur ses produits financiers, annoté par une équipe de 30 analystes. “C’est un investissement conséquent, mais sans cela, l’évaluation n’a aucun sens. On ne peut pas déployer un modèle qui conseille des clients sans savoir précisément à quel point il est fiable sur chaque type de produit”, explique Claire Soudan.
La robustesse teste la capacité du modèle à résister à des variations de formulation. Une expérience menée par LightOn avec un cabinet d’avocats a montré qu’un modèle généraliste donnait des réponses différentes à 22% des questions reformulées de manière légèrement différente, contre seulement 6% pour un modèle spécialisé testé dans les mêmes conditions.
“Si vous posez deux fois la même question avec une formulation différente et que vous obtenez deux réponses contradictoires, le modèle est inutilisable en production. C’est pourtant ce qui arrive avec la plupart des modèles généralistes”, note Igor Carron.
Le troisième pilier est le coût total, qui inclut non seulement le prix par token, mais aussi le coût d’infrastructure, de fine-tuning et de maintenance. Une analyse menée par Devoteam en mars 2026 sur un panel de 40 entreprises françaises montre que le coût réel d’un modèle peut varier du simple au quadruple selon les conditions d’utilisation.
L’évaluation continue, nouveau standard
Au-delà de l’évaluation initiale, les entreprises les plus avancées mettent en place des systèmes de monitoring en continu. Le cabinet de conseil Wavestone a publié en mai 2026 une étude montrant que les performances d’un modèle non surveillé peuvent se dégrader de 15 à 30% sur six mois, en raison des évolutions des données d’entrée et des changements de comportement des utilisateurs.
“Mettre un modèle en production et ne pas le surveiller, c’est comme piloter un avion sans instruments de vol. Personne ne ferait ça avec un logiciel traditionnel, mais beaucoup d’entreprises le font avec l’IA”, alerte Marianne Bouchaud, associée chez McKinsey France.
Des startups françaises comme Contexte.ai et Eviden Lab développent des outils de monitoring spécialisés. Contexte.ai, fondée en 2025 par d’anciens ingénieurs de Mistral AI, propose une plateforme qui analyse en temps réel la dérive des réponses d’un modèle et alerte les équipes lorsque la qualité descend sous un seuil critique.
Le casse-tête de la reproductibilité
Un des problèmes les plus sous-estimés dans l’évaluation des modèles est le manque de reproductibilité. Une enquête menée par Hugging Face en mars 2026 auprès de 300 entreprises utilisatrices de LLMs a révélé que 73% d’entre elles avaient constaté des variations de performance significatives entre deux versions du même modèle, sans explication claire de la part du fournisseur.
Cette opacité pousse certaines entreprises à se tourner vers les modèles open-source, qu’elles peuvent auditer et évaluer de manière transparente. L’éditeur français de logiciels Dassault Systèmes a ainsi basculé l’ensemble de ses déploiements IA vers des modèles ouverts en mars 2026, après avoir identifié des incohérences dans les performances d’un modèle propriétaire.
“Nous avons besoin de reproductibilité. Si un modèle se comporte différemment entre lundi et mardi sans que nous sachions pourquoi, nous ne pouvons pas construire de système fiable autour”, explique Florence Verzelen, directrice adjointe de Dassault Systèmes.
Le rôle croissant des audits externes
Face à la complexité technique de l’évaluation, un nouveau marché émerge : celui des auditeurs de modèles d’IA. Des cabinets comme PwC France, KPMG et des acteurs plus spécialisés comme le français Hestia.ai proposent désormais des services d’audit indépendant des modèles.
Le processus, qui peut prendre de deux à six semaines, comprend une analyse de la documentation du modèle, des tests de biais, une évaluation de la robustesse et une vérification de la conformité réglementaire (notamment avec le futur règlement européen sur l’IA).
“Acheter un modèle sans audit indépendant, c’est comme acheter une entreprise sans due diligence. Le marché arrive à maturité, et les comités exécutifs commencent à exiger ces audits avant de valider les budgets”, note Philippe Trouchaud, associé chez PwC France.
Comme nous l’analysions dans notre article sur le ROI mesurable de l’IA, cette rigueur dans l’évaluation est le prérequis indispensable au passage à l’échelle. Les entreprises qui ont mis en place des protocoles d’évaluation solides sont également celles qui déclarent le meilleur retour sur investissement de leurs projets IA.
Vers un standard européen d’évaluation
Plusieurs initiatives européennes tentent de structurer cette démarche. Le projet “EuroLLM Benchmark”, porté par l’INRIA et le CNRS en collaboration avec des partenaires industriels, vise à créer un référentiel d’évaluation spécifique aux besoins des entreprises européennes, prenant en compte les exigences linguistiques (y compris les langues peu dotées comme le néerlandais ou le polonais) et réglementaires de l’Union européenne.
“Les benchmarks américains sont conçus pour l’anglais et le marché américain. L’Europe a besoin de ses propres outils d’évaluation, qui reflètent sa diversité linguistique et ses exigences réglementaires”, explique le professeur Patrick Gallinari, chercheur au CNRS et coordinateur du projet, qui devrait livrer sa première version en septembre 2026.
Cette standardisation est d’autant plus nécessaire que, comme nous le décrivions dans notre panorama des startups françaises de l’IA, l’écosystème européen comptera bientôt plusieurs dizaines de modèles concurrents. Sans méthode d’évaluation commune, les entreprises risquent la paralysie face à un choix trop vaste.



