Claude est l'un des modèles au raisonnement le plus puissant que vous puissiez placer devant un problème. Posez-lui pourtant une question réglementaire, et la réponse fluide résiste rarement à une vérification des faits : un numéro de règlement qui n'existe pas, une édition dépassée, un projet cité comme s'il était contraignant. La conclusion naturelle est qu'un modèle, même aussi capable, ne peut pas être fiable en matière réglementaire.

C'est la mauvaise conclusion. Le raisonnement de Claude n'a jamais été le problème, c'est sa portée qui l'était. Un modèle généraliste répond à partir d'un instantané figé du web, sans aucun moyen d'ouvrir le texte réel d'un règlement ni de savoir s'il est en vigueur aujourd'hui. Donnez ce texte à Claude, et il cesse de deviner.

Ce texte, c'est ce qu'apporte Obsidian. Nous avons soumis les modèles Claude, Haiku 4.5, Sonnet 4.6 et Opus 4.8, à des centaines de tâches réglementaires complexes couvrant l'ESG, la chimie et les sciences de la vie, chacune traitée par le modèle seul puis connecté à Obsidian.

59 → 94
Précision réglementaire moyenne, les mêmes modèles seuls vs connectés (sur 100)
23% → 86%
Part des affirmations factuelles d'une réponse ancrées dans la source officielle
96%
Réponses connectées ayant cité la bonne source officielle

Claude est imprécis pour le travail réglementaire

Seuls, les modèles Claude atteignent en moyenne 59 sur 100. Connectez-les à Obsidian et la moyenne grimpe à 94. Le meilleur duo, opus-4.8, atteint 95.2. Les modèles n'ont pas changé entre ces deux chiffres. Seules les données placées devant eux ont changé.

Précision réglementaire en fonction du prix par 1M de tokens
La précision réglementaire face au prix. Connecté à Obsidian (les pièces plus larges), chaque modèle converge vers le haut.
Précision réglementaire en fonction du temps de réponse moyen en secondes
La même chose face au temps de réponse.

Le Claude le plus léger fait la démonstration à lui seul. haiku-4.5, à $2.0 par million de tokens, passe de 44 à 94 une fois connecté, dans la bande des modèles bien plus chers que lui. Vous n'avez pas besoin du plus grand Claude pour être précis sur la réglementation ; vous devez lui fournir les données, et le tableau par modèle montre la même convergence sur les trois.

Claude ne peut pas vous indiquer la source officielle

La précision n'est que la moitié du sujet. Connectée à Obsidian, une réponse de Claude montre son travail : l'instrument, sa référence et son édition exactes, le statut juridique, et un lien direct vers le document officiel, souvent le PDF source. Seul, Claude rédige une citation fluide que vous devez ensuite confirmer. Connecté, la citation arrive déjà vérifiable, et c'est précisément ce dont une équipe réglementaire a besoin.

Une réponse accompagnée de sa source tier-0 est une réponse que vous pouvez transmettre à un auditeur sans la revérifier. C'est la différence entre un projet imaginé par un modèle et une obligation sur laquelle vous pouvez agir.

Claude hallucine

Nous avons décomposé chaque réponse de Claude en affirmations factuelles individuelles et vérifié chacune face à la source officielle. L'écart entre les deux chiffres d'affirmations ancrées ci-dessus, c'est le type d'erreur le plus dangereux qui disparaît. Claude rédige des réponses riches et développées et ajoute du contexte au-delà de la source stricte, ce qui explique pourquoi le chiffre connecté n'est pas encore plus élevé ; ce qui disparaît, c'est l'affirmation assurée qui ne repose sur rien.

Les données complètes, pour les puristes

Chaque modèle, dans les deux conditions. « Seul » désigne le modèle sans couche de données ; « avec Obsidian » désigne le même modèle connecté. La précision est un score de 0 à 100 attribué par un juge en aveugle face à une vérité de référence vérifiée par des humains. Les « affirmations ancrées » sont la part des affirmations factuelles atomiques de la réponse qui remontent à la source officielle, seul versus avec Obsidian.

#ModèleNiveauPréc. seulPréc. + ObsidianGainCite la sourceStatut correctAffirmations ancrées (seul → +Obs)LatenceVitessePrix /1MCoût / question
1opus-4.8avancé67.695.2+27.696%100%24% → 89%4.86s69 tok/s$10.0$0.024427
2sonnet-4.6intermédiaire67.194.3+27.296%100%24% → 81%7.89s46 tok/s$6.0$0.012284
3haiku-4.5léger43.693.5+49.996%100%21% → 88%2.85s75 tok/s$2.0$0.003326

Toutes réponses confondues, le Claude le plus léger connecté à Obsidian dépasse le Claude frontière répondant seul, pour une fraction du coût.

Comment nous avons mesuré

  • Trois modèles Claude : Haiku 4.5, Sonnet 4.6, Opus 4.8.
  • Des centaines de tâches réglementaires complexes couvrant l'ESG (CSRD, les ESRS, la taxonomie de l'UE, SFDR), la chimie (REACH, le SGH de l'ONU, les conventions mondiales) et les sciences de la vie (les normes medtech ISO et IEC, ICH, IMDRF), chacune rattachée à sa source officielle.
  • Deux conditions : Claude seul, et Claude connecté à Obsidian.
  • Un juge en aveugle note chaque réponse face à une vérité de référence vérifiée par des humains ; les affirmations ancrées proviennent d'une vérification distincte, affirmation par affirmation.

Faites de Claude le modèle de la première ligne

Connectez Obsidian à Claude et chaque réponse réglementaire revient avec sa source officielle, sa date et son statut juridique. Offre gratuite, installation en deux minutes.

Découvrir la couche de données Obsidian

Ce que cela signifie

Le Claude que vous utilisez déjà, alimenté en données réglementaires vérifiées, répond avec la précision d'un spécialiste et les justificatifs d'un auditeur. Le contexte est ici aussi : pourquoi l'IA hallucine sur les questions réglementaires, ce qu'est la donnée réglementaire tier-0, et l'idée d'intelligence réglementaire agentique. Les résultats complets, tous fournisseurs confondus, sont dans le benchmark d'IA réglementaire. Pour le tester sur vos propres questions, connectez la couche de données réglementaires Obsidian.