Si vous gérez la conformité des produits chimiques, la difficulté est que rien ne reste en place. Des substances rejoignent les listes de restriction et la liste des substances candidates, les classifications de danger sont révisées, la dynamique mondiale sur les PFAS ne cesse d'évoluer et les conventions internationales ajoutent des entrées à chaque réunion. Demandez à une IA si une substance est restreinte au titre de REACH, quelle est sa classification GHS actuelle ou si un polluant persistant a été inscrit, et la réponse revient sûre d'elle et souvent en retard d'une révision ou deux, citant parfois une règle qui n'existe pas.
Les modèles raisonnent parfaitement bien sur les règles applicables aux produits chimiques. Ce qui leur manque, c'est l'accès : un modèle généraliste ne peut pas ouvrir la liste de restriction actuelle ni le dernier texte d'une convention, et n'a aucun moyen de savoir quelle révision est en vigueur. Donnez-lui ce texte, et il cesse de deviner.
Ce texte, c'est ce que fournit Obsidian, avec une couverture approfondie des régimes mondiaux des produits chimiques. Nous avons soumis les modèles à des centaines de tâches complexes sur les produits chimiques couvrant REACH, CLP, le GHS de l'ONU et les conventions de Stockholm, de Bâle, de Rotterdam et de Minamata, chacune traitée par le modèle seul puis connecté à Obsidian.
L'IA est imprécise sur la réglementation des produits chimiques
Seuls, les modèles obtiennent en moyenne 53 sur 100. Connectez-les à Obsidian et la moyenne grimpe à 95. Le meilleur duo, gpt-5.4-mini, atteint 95.8. Les modèles n'ont pas changé entre ces deux chiffres. Seules les données mises devant eux ont changé.
Le travail sur les produits chimiques punit les connaissances périmées plus durement que presque tout autre domaine : un statut de restriction, une classification de danger ou une inscription qui a changé au trimestre dernier, et une réponse construite sur la révision de l'an dernier est tout simplement fausse. C'est là que la couche de données gagne sa place. gemini-3.1-flash-lite, à $0.175 par million de tokens, passe de 56 à 95 une fois connecté, rejoignant la bande des modèles bien plus chers que lui. Un modèle de gamme légère connecté à Obsidian a battu un modèle frontière répondant seul dans 16 duels sur 16 sur le jeu de questions chimiques.
L'IA ne peut pas vous indiquer la source officielle en matière de produits chimiques
Pour une équipe product stewardship ou affaires réglementaires, la citation est le livrable. Connectée à Obsidian, une réponse arrive avec le régime, la restriction ou l'inscription en cours, la révision en vigueur et un lien direct vers le texte officiel. Seul, vous obtenez une référence plausible à vérifier vous-même, sur des questions où le statut et la révision constituent toute la réponse, et où une mauvaise décision peut bloquer un produit.
Une réponse accompagnée de la source tier-0 est une réponse que vous pouvez transmettre à un auditeur sans la revérifier. C'est la différence entre un brouillon imaginé par un modèle et une obligation sur laquelle vous pouvez agir.
L'IA hallucine
Nous avons décomposé chaque réponse en affirmations factuelles individuelles et vérifié chacune par rapport à la source officielle. L'écart entre les deux chiffres d'affirmations fondées ci-dessus représente, pour une restriction de substance, une classification ou une inscription, la différence entre une réponse exploitable et une réponse à revérifier ligne par ligne. Le reliquat non fondé est du contexte ajouté, pas des références inventées.
Les données complètes, pour les puristes
Chaque modèle, dans les deux conditions. « Seul » désigne le modèle sans couche de données ; « avec Obsidian », le même modèle connecté. La précision est un score de 0 à 100 attribué par un juge en aveugle par rapport à une vérité terrain vérifiée par des humains. « Affirmations fondées » est la part des affirmations factuelles atomiques de la réponse qui remontent à la source officielle, seul puis avec Obsidian.
| # | Modèle | Fournisseur | Gamme | Préc. seul | Préc. + Obsidian | Gain | Cite la source | Statut correct | Affirmations fondées (seul → +Obs) | Latence | Vitesse | Prix /1M | Coût / question |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.4-mini | OpenAI | intermédiaire | 63.0 | 95.8 | +32.8 | 96% | 100% | 35% → 97% | 1.14s | 83 tok/s | $0.7 | $0.000486 |
| 2 | grok-4.3 | xAI | intermédiaire | 53.1 | 95.8 | +42.7 | 97% | 100% | 29% → 94% | 3.22s | 120 tok/s | $1.562 | $0.002179 |
| 3 | gpt-5.4-nano | OpenAI | léger | 38.3 | 95.5 | +57.2 | 95% | 100% | 22% → 96% | 1.21s | 84 tok/s | $0.463 | $0.000302 |
| 4 | opus-4.8 | Anthropic | avancé | 58.4 | 95.5 | +37.1 | 97% | 100% | 20% → 85% | 3.7s | 71 tok/s | $10.0 | $0.013676 |
| 5 | gemini-3.1-flash-lite | léger | 56.3 | 95.4 | +39.1 | 93% | 100% | 22% → 98% | 0.74s | 118 tok/s | $0.175 | $0.000125 | |
| 6 | gpt-5.5 | OpenAI | avancé | 40.7 | 95.4 | +54.7 | 95% | 100% | 46% → 96% | 4.76s | 33 tok/s | $11.25 | $0.009351 |
| 7 | grok-4.20-reasoning | xAI | avancé | 56.4 | 95.0 | +38.6 | 96% | 100% | 24% → 92% | 2.49s | 225 tok/s | $6.0 | $0.012179 |
| 8 | sonnet-4.6 | Anthropic | intermédiaire | 59.1 | 95.0 | +35.9 | 96% | 100% | 21% → 83% | 6.2s | 50 tok/s | $6.0 | $0.007406 |
| 9 | grok-3-mini | xAI | léger | 49.7 | 94.8 | +45.1 | 95% | 98% | 32% → 91% | 3.19s | 118 tok/s | $0.35 | $0.000479 |
| 10 | gemini-3.5-flash | intermédiaire | 60.0 | 94.4 | +34.4 | 99% | 100% | 22% → 94% | 2.9s | 178 tok/s | $3.375 | $0.006279 | |
| 11 | gemini-3.1-pro | avancé | 61.1 | 93.9 | +32.8 | 95% | 100% | 23% → 96% | 5.79s | 111 tok/s | $6.0 | $0.013897 | |
| 12 | haiku-4.5 | Anthropic | léger | 41.5 | 93.6 | +52.1 | 95% | 100% | 18% → 88% | 1.97s | 87 tok/s | $2.0 | $0.001841 |
Sur un domaine qui punit les connaissances périmées, la précision en mode connecté et le bond des affirmations fondées sont les tests qui comptent, et la couche de données réussit les deux.
Comment nous avons mesuré
- La gamme complète de modèles d'Anthropic, OpenAI, Google et xAI.
- Des centaines de tâches complexes sur les produits chimiques couvrant REACH, CLP, le GHS de l'ONU, les conventions de Stockholm, de Bâle, de Rotterdam et de Minamata et le Cadre mondial sur les produits chimiques, chacune rattachée à sa source officielle et à sa révision en vigueur.
- Deux conditions : le modèle seul, puis connecté à Obsidian.
- Un juge en aveugle note chaque réponse ; les affirmations fondées proviennent d'une vérification distincte, affirmation par affirmation, contre la source officielle.
Mettez la source officielle des produits chimiques derrière chaque réponse
Connectez Obsidian à l'IA que vous utilisez déjà et chaque réponse REACH, GHS ou convention revient avec le régime, la restriction en cours et la révision en vigueur. Offre gratuite, installation en deux minutes.
Découvrir la couche de données ObsidianCe que cela signifie
Pour les équipes produits chimiques et matériaux avancés qui suivent restrictions, inscriptions et classifications à travers les juridictions, l'assistant que vous utilisez déjà, alimenté par des données vérifiées, répond avec la source officielle attachée, de sorte qu'un spécialiste réglementaire peut agir dessus plutôt que la revérifier. Le contexte est ici aussi : les données réglementaires tier-0 et l'intelligence réglementaire agentique. Les résultats complets multi-secteurs sont dans le benchmark IA réglementaire. Pour l'essayer sur vos propres questions, connectez la couche de données réglementaires Obsidian.