Si vous gérez la conformité des produits chimiques, la difficulté est que rien ne reste en place. Des substances rejoignent les listes de restriction et la liste des substances candidates, les classifications de danger sont révisées, la dynamique mondiale sur les PFAS ne cesse d'évoluer et les conventions internationales ajoutent des entrées à chaque réunion. Demandez à une IA si une substance est restreinte au titre de REACH, quelle est sa classification GHS actuelle ou si un polluant persistant a été inscrit, et la réponse revient sûre d'elle et souvent en retard d'une révision ou deux, citant parfois une règle qui n'existe pas.

Les modèles raisonnent parfaitement bien sur les règles applicables aux produits chimiques. Ce qui leur manque, c'est l'accès : un modèle généraliste ne peut pas ouvrir la liste de restriction actuelle ni le dernier texte d'une convention, et n'a aucun moyen de savoir quelle révision est en vigueur. Donnez-lui ce texte, et il cesse de deviner.

Ce texte, c'est ce que fournit Obsidian, avec une couverture approfondie des régimes mondiaux des produits chimiques. Nous avons soumis les modèles à des centaines de tâches complexes sur les produits chimiques couvrant REACH, CLP, le GHS de l'ONU et les conventions de Stockholm, de Bâle, de Rotterdam et de Minamata, chacune traitée par le modèle seul puis connecté à Obsidian.

53 → 95
Précision réglementaire moyenne, les mêmes modèles seuls vs connectés (sur 100)
24% → 91%
Part des affirmations factuelles d'une réponse fondées sur la source officielle
96%
Réponses connectées ayant cité la bonne source officielle

L'IA est imprécise sur la réglementation des produits chimiques

Seuls, les modèles obtiennent en moyenne 53 sur 100. Connectez-les à Obsidian et la moyenne grimpe à 95. Le meilleur duo, gpt-5.4-mini, atteint 95.8. Les modèles n'ont pas changé entre ces deux chiffres. Seules les données mises devant eux ont changé.

Précision réglementaire par rapport au prix par 1M de tokens
La précision réglementaire face au prix. Connecté à Obsidian (les jetons les plus larges), chaque modèle converge vers le haut.
Précision réglementaire par rapport au temps de réponse moyen en secondes
La même chose face au temps de réponse.

Le travail sur les produits chimiques punit les connaissances périmées plus durement que presque tout autre domaine : un statut de restriction, une classification de danger ou une inscription qui a changé au trimestre dernier, et une réponse construite sur la révision de l'an dernier est tout simplement fausse. C'est là que la couche de données gagne sa place. gemini-3.1-flash-lite, à $0.175 par million de tokens, passe de 56 à 95 une fois connecté, rejoignant la bande des modèles bien plus chers que lui. Un modèle de gamme légère connecté à Obsidian a battu un modèle frontière répondant seul dans 16 duels sur 16 sur le jeu de questions chimiques.

L'IA ne peut pas vous indiquer la source officielle en matière de produits chimiques

Pour une équipe product stewardship ou affaires réglementaires, la citation est le livrable. Connectée à Obsidian, une réponse arrive avec le régime, la restriction ou l'inscription en cours, la révision en vigueur et un lien direct vers le texte officiel. Seul, vous obtenez une référence plausible à vérifier vous-même, sur des questions où le statut et la révision constituent toute la réponse, et où une mauvaise décision peut bloquer un produit.

Une réponse accompagnée de la source tier-0 est une réponse que vous pouvez transmettre à un auditeur sans la revérifier. C'est la différence entre un brouillon imaginé par un modèle et une obligation sur laquelle vous pouvez agir.

L'IA hallucine

Nous avons décomposé chaque réponse en affirmations factuelles individuelles et vérifié chacune par rapport à la source officielle. L'écart entre les deux chiffres d'affirmations fondées ci-dessus représente, pour une restriction de substance, une classification ou une inscription, la différence entre une réponse exploitable et une réponse à revérifier ligne par ligne. Le reliquat non fondé est du contexte ajouté, pas des références inventées.

Les données complètes, pour les puristes

Chaque modèle, dans les deux conditions. « Seul » désigne le modèle sans couche de données ; « avec Obsidian », le même modèle connecté. La précision est un score de 0 à 100 attribué par un juge en aveugle par rapport à une vérité terrain vérifiée par des humains. « Affirmations fondées » est la part des affirmations factuelles atomiques de la réponse qui remontent à la source officielle, seul puis avec Obsidian.

#ModèleFournisseurGammePréc. seulPréc. + ObsidianGainCite la sourceStatut correctAffirmations fondées (seul → +Obs)LatenceVitessePrix /1MCoût / question
1gpt-5.4-miniOpenAIintermédiaire63.095.8+32.896%100%35% → 97%1.14s83 tok/s$0.7$0.000486
2grok-4.3xAIintermédiaire53.195.8+42.797%100%29% → 94%3.22s120 tok/s$1.562$0.002179
3gpt-5.4-nanoOpenAIléger38.395.5+57.295%100%22% → 96%1.21s84 tok/s$0.463$0.000302
4opus-4.8Anthropicavancé58.495.5+37.197%100%20% → 85%3.7s71 tok/s$10.0$0.013676
5gemini-3.1-flash-liteGoogleléger56.395.4+39.193%100%22% → 98%0.74s118 tok/s$0.175$0.000125
6gpt-5.5OpenAIavancé40.795.4+54.795%100%46% → 96%4.76s33 tok/s$11.25$0.009351
7grok-4.20-reasoningxAIavancé56.495.0+38.696%100%24% → 92%2.49s225 tok/s$6.0$0.012179
8sonnet-4.6Anthropicintermédiaire59.195.0+35.996%100%21% → 83%6.2s50 tok/s$6.0$0.007406
9grok-3-minixAIléger49.794.8+45.195%98%32% → 91%3.19s118 tok/s$0.35$0.000479
10gemini-3.5-flashGoogleintermédiaire60.094.4+34.499%100%22% → 94%2.9s178 tok/s$3.375$0.006279
11gemini-3.1-proGoogleavancé61.193.9+32.895%100%23% → 96%5.79s111 tok/s$6.0$0.013897
12haiku-4.5Anthropicléger41.593.6+52.195%100%18% → 88%1.97s87 tok/s$2.0$0.001841

Sur un domaine qui punit les connaissances périmées, la précision en mode connecté et le bond des affirmations fondées sont les tests qui comptent, et la couche de données réussit les deux.

Comment nous avons mesuré

  • La gamme complète de modèles d'Anthropic, OpenAI, Google et xAI.
  • Des centaines de tâches complexes sur les produits chimiques couvrant REACH, CLP, le GHS de l'ONU, les conventions de Stockholm, de Bâle, de Rotterdam et de Minamata et le Cadre mondial sur les produits chimiques, chacune rattachée à sa source officielle et à sa révision en vigueur.
  • Deux conditions : le modèle seul, puis connecté à Obsidian.
  • Un juge en aveugle note chaque réponse ; les affirmations fondées proviennent d'une vérification distincte, affirmation par affirmation, contre la source officielle.

Mettez la source officielle des produits chimiques derrière chaque réponse

Connectez Obsidian à l'IA que vous utilisez déjà et chaque réponse REACH, GHS ou convention revient avec le régime, la restriction en cours et la révision en vigueur. Offre gratuite, installation en deux minutes.

Découvrir la couche de données Obsidian

Ce que cela signifie

Pour les équipes produits chimiques et matériaux avancés qui suivent restrictions, inscriptions et classifications à travers les juridictions, l'assistant que vous utilisez déjà, alimenté par des données vérifiées, répond avec la source officielle attachée, de sorte qu'un spécialiste réglementaire peut agir dessus plutôt que la revérifier. Le contexte est ici aussi : les données réglementaires tier-0 et l'intelligence réglementaire agentique. Les résultats complets multi-secteurs sont dans le benchmark IA réglementaire. Pour l'essayer sur vos propres questions, connectez la couche de données réglementaires Obsidian.