Si vous travaillez en affaires réglementaires ou en qualité dans le dispositif médical ou la pharma, un détail décide si une réponse est exploitable : l'édition. ISO 13485, ISO 14971, ISO 14155, IEC 62304 et les lignes directrices ICH sont toutes révisées, et citer une édition remplacée dans une soumission ou un audit n'est pas une petite erreur, c'est un écart. Demandez à une IA quelle édition est en vigueur, ce que la dernière révision des bonnes pratiques cliniques a changé, ou quel guide couvre les dispositifs à base d'IA et d'apprentissage automatique : elle répond avec aisance en citant l'édition sur laquelle elle a été entraînée, qui a peut-être été retirée.

Les modèles raisonnent parfaitement bien sur les normes. Ce qui leur fait défaut, c'est la portée : un modèle généraliste ne peut pas savoir quelle édition est en vigueur aujourd'hui. Donnez-lui le texte à jour, et il cesse de deviner.

Ce texte, c'est ce qu'Obsidian fournit, en profondeur sur les normes mondiales des sciences de la vie. Nous avons soumis les modèles à des centaines de tâches complexes couvrant les normes medtech ISO et IEC, les lignes directrices ICH et les guides IMDRF, chacune traitée par le modèle seul puis connecté à Obsidian.

52 → 96
Précision réglementaire moyenne, les mêmes modèles seuls vs connectés (sur 100)
31% → 94%
Part des affirmations factuelles d'une réponse fondées sur la source officielle
97%
Réponses connectées ayant cité la bonne source officielle

L'IA est imprécise pour le travail réglementaire en sciences de la vie

Seuls, les modèles obtiennent en moyenne 52 sur 100. Connectez-les à Obsidian et la moyenne grimpe à 96. Le meilleur duo, gpt-5.5, atteint 97.5. Les modèles n'ont pas changé entre ces deux chiffres. Seules les données placées devant eux ont changé.

Précision réglementaire par rapport au prix par 1M de tokens
La précision réglementaire face au prix. Connectés à Obsidian (les jetons les plus larges), tous les modèles convergent vers le haut.
Précision réglementaire par rapport au temps de réponse moyen en secondes
La même chose face au temps de réponse.

Les sciences de la vie sont le cas le plus net de tout ce benchmark en faveur d'une couche de données : les éditions bougent constamment, et un modèle qui travaille de mémoire cite celle qu'il a apprise plutôt que celle en vigueur. C'est exactement là qu'une soumission se retrouve bloquée. gemini-3.1-flash-lite, à $0.175 par million de tokens, passe de 56 à 97 une fois connecté, dans la bande des modèles plusieurs fois plus chers que lui. Un modèle léger connecté à Obsidian a battu un modèle frontière répondant seul dans 16 confrontations directes sur 16 sur le jeu sciences de la vie.

L'IA ne peut pas vous indiquer la norme officielle

Ici, l'édition est la réponse. Connectée à Obsidian, une réponse arrive avec la norme, son édition en vigueur, l'organisme émetteur et un lien direct. Seul, le modèle vous donne une citation plausible, souvent la mauvaise édition, à vérifier vous-même. Pour une revue par un organisme notifié ou une soumission réglementaire, la différence entre l'édition en vigueur et une édition retirée est la différence entre un dossier défendable et un écart.

Une réponse accompagnée de sa source tier-0 est une réponse que vous pouvez transmettre à un auditeur sans la revérifier. C'est la différence entre un brouillon imaginé par un modèle et une obligation sur laquelle vous pouvez agir.

L'IA hallucine

Nous avons décomposé chaque réponse en affirmations factuelles individuelles et vérifié chacune face à la source officielle. L'écart entre les deux chiffres d'affirmations fondées ci-dessus correspond au type d'erreur dangereux qui disparaît, sur un terrain où une seule mauvaise édition compromet une soumission. Le reliquat non fondé est du contexte ajouté, pas des références inventées.

Les données complètes, pour les puristes

Chaque modèle, dans les deux conditions. « Seul » désigne le modèle sans couche de données ; « avec Obsidian » désigne le même modèle connecté. La précision est un score de 0 à 100 attribué par un juge en aveugle face à une vérité terrain vérifiée par des humains. « Affirmations fondées » est la part des affirmations factuelles atomiques de la réponse qui remontent à la source officielle, seul puis avec Obsidian.

#ModèleFournisseurNiveauPréc. seulPréc. + ObsidianGainCite la sourceStatut correctAffirmations fondées (seul → +Obs)LatenceVitessePrix /1MCoût / question
1gpt-5.5OpenAIavancé38.197.5+59.496%100%42% → 98%4.73s49 tok/s$11.25$0.026259
2grok-3-minixAIléger46.597.2+50.799%100%34% → 94%3.21s136 tok/s$0.35$0.001342
3gpt-5.4-nanoOpenAIléger34.597.0+62.597%100%24% → 98%1.49s88 tok/s$0.463$0.000922
4gemini-3.1-flash-liteGoogleléger56.296.8+40.698%100%30% → 98%0.86s139 tok/s$0.175$0.000469
5gpt-5.4-miniOpenAIintermédiaire63.196.7+33.697%100%38% → 95%1.28s87 tok/s$0.7$0.001685
6grok-4.20-reasoningxAIavancé62.696.6+34.096%100%30% → 96%2.86s226 tok/s$6.0$0.021106
7opus-4.8Anthropicavancé65.396.6+31.396%100%28% → 93%5.86s69 tok/s$10.0$0.039476
8gemini-3.5-flashGoogleintermédiaire57.296.3+39.199%100%34% → 98%3.62s183 tok/s$3.375$0.012549
9grok-4.3xAIintermédiaire44.596.3+51.898%100%32% → 97%3.21s132 tok/s$1.562$0.005775
10haiku-4.5Anthropicléger32.796.3+63.698%100%22% → 90%3.98s64 tok/s$2.0$0.005482
11sonnet-4.6Anthropicintermédiaire63.395.0+31.796%100%26% → 85%9.57s42 tok/s$6.0$0.019201
12gemini-3.1-proGoogleavancé62.894.5+31.792%100%42% → 98%6.25s107 tok/s$6.0$0.020789

Les sciences de la vie affichent le plus grand écart entre un modèle qui travaille de mémoire et un modèle qui lit la norme en vigueur, exactement là où une couche de données maintenue prouve sa valeur.

Comment nous avons mesuré

  • L'ensemble complet des modèles d'Anthropic, OpenAI, Google et xAI.
  • Des centaines de tâches complexes en sciences de la vie couvrant les normes medtech ISO et IEC (qualité, risque, clinique, logiciel, biocompatibilité), les lignes directrices ICH et les guides IMDRF, chacune reliée à sa source officielle et à son édition en vigueur.
  • Deux conditions : le modèle seul, puis connecté à Obsidian.
  • Un juge en aveugle note chaque réponse ; les affirmations fondées proviennent d'une vérification distincte, affirmation par affirmation, face à la source officielle.

Mettez la bonne édition de chaque norme derrière votre IA

Connectez Obsidian à l'IA que vous utilisez déjà et chaque réponse sur les normes revient avec l'édition en vigueur et l'organisme émetteur. Offre gratuite, installation en deux minutes.

Découvrir la couche de données Obsidian

Ce que cela change

Pour les équipes réglementaires et qualité du dispositif médical et de la pharma, l'assistant que vous utilisez déjà, alimenté par des données vérifiées, cesse de citer des éditions retirées et se met à répondre avec la norme et l'édition réellement en vigueur, si bien qu'un relecteur peut s'y fier dans une soumission. Le contexte est ici : les données réglementaires tier-0 et l'intelligence réglementaire agentique. Les résultats complets toutes industries confondues sont dans le benchmark d'IA réglementaire. Pour le tester sur vos propres questions, connectez la couche de données réglementaires Obsidian.