Wenn Sie Chemikalien-Compliance verantworten, liegt die Schwierigkeit darin, dass nichts stillsteht. Stoffe rücken auf Beschränkungs- und Kandidatenlisten, Gefahreneinstufungen werden überarbeitet, die weltweite Entwicklung bei PFAS verschiebt sich laufend, und die internationalen Übereinkommen nehmen bei jeder Sitzung neue Einträge auf. Fragen Sie eine KI, ob ein Stoff unter REACH beschränkt ist, wie seine aktuelle GHS-Einstufung lautet oder ob ein persistenter Schadstoff gelistet wurde, und die Antwort kommt selbstsicher zurück und liegt oft eine oder zwei Revisionen zurück, mitunter unter Berufung auf eine Regel, die es nicht gibt.

Die Modelle argumentieren über Chemikalienrecht völlig schlüssig. Was ihnen fehlt, ist der Zugriff: Ein generalistisches Modell kann weder die aktuelle Beschränkungsliste noch den neuesten Text eines Übereinkommens öffnen und hat keine Möglichkeit zu wissen, welche Revision in Kraft ist. Geben Sie ihm diesen Text, und es hört auf zu raten.

Diesen Text liefert Obsidian, mit tiefer Abdeckung der weltweiten Chemikalienregime. Wir haben die Modelle Hunderte komplexer Chemikalienaufgaben zu REACH, CLP, dem GHS der UN sowie den Übereinkommen von Stockholm, Basel, Rotterdam und Minamata durchlaufen lassen, jede einmal allein und einmal mit Obsidian verbunden.

53 → 95
Durchschnittliche regulatorische Genauigkeit, dieselben Modelle allein vs. verbunden (von 100)
24% → 91%
Anteil der faktischen Aussagen einer Antwort, die in der offiziellen Quelle verankert sind
96%
Verbundene Antworten, die die korrekte offizielle Quelle zitierten

KI ist bei Chemikalienregulierung ungenau

Allein erreichten die Modelle im Schnitt 53 von 100. Mit Obsidian verbunden steigt der Schnitt auf 95. Die beste Kombination, gpt-5.4-mini, erreichte 95.8. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen.

Regulatorische Genauigkeit gegenüber dem Preis pro 1M Token
Regulatorische Genauigkeit gegenüber dem Preis. Mit Obsidian verbunden (die breiteren Münzen) konvergiert jedes Modell nach oben.
Regulatorische Genauigkeit gegenüber der durchschnittlichen Antwortzeit in Sekunden
Dasselbe gegenüber der Antwortzeit.

Kaum ein Feld bestraft veraltetes Wissen härter als die Chemikalienarbeit: Ändert sich ein Beschränkungsstatus, eine Gefahreneinstufung oder eine Listung im letzten Quartal, ist eine Antwort auf Basis der Vorjahresrevision schlicht falsch. Genau hier verdient sich die Datenebene ihren Platz. gemini-3.1-flash-lite, zu $0.175 pro Million Token, steigt verbunden von 56 auf 95, in die Klasse von Modellen, die ein Vielfaches kosten. Ein leichtes Modell mit Obsidian schlug im Chemikalien-Set in 16 von 16 Direktvergleichen ein allein antwortendes Frontier-Modell.

KI kann Ihnen die offizielle Chemikalienquelle nicht nennen

Für ein Product-Stewardship- oder Regulatory-Affairs-Team ist das Zitat das Arbeitsergebnis. Mit Obsidian verbunden kommt eine Antwort mit dem Regime, der aktuellen Beschränkung oder Listung, der geltenden Revision und einem direkten Link zum offiziellen Text. Allein erhalten Sie eine plausible Referenz, die Sie selbst prüfen müssen, bei Fragen, in denen Status und Revision die ganze Antwort sind und eine Fehleinschätzung ein Produkt aufhalten kann.

Eine Antwort mit angehängter Tier-0-Quelle können Sie an einen Auditor weiterleiten, ohne sie erneut zu prüfen. Das ist der Unterschied zwischen einem Entwurf, den sich ein Modell ausgedacht hat, und einer Pflicht, auf die Sie sich stützen können.

KI halluziniert

Wir haben jede Antwort in ihre einzelnen faktischen Aussagen zerlegt und jede gegen die offizielle Quelle geprüft. Der Abstand zwischen den beiden oben genannten Werten für verankerte Aussagen ist, bei einer Stoffbeschränkung, einer Einstufung oder einer Listung, der Unterschied zwischen einer Antwort, auf die Sie sich stützen können, und einer, die Sie Zeile für Zeile nachprüfen. Der nicht verankerte Rest ist ergänzender Kontext, keine erfundenen Referenzen.

Die vollständigen Daten, für die Puristen

Jedes Modell, beide Bedingungen. "Allein" ist das Modell ohne Datenebene; "mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Wert von 0 bis 100 von einem blinden Gutachter gegen von Menschen verifizierte Referenzantworten. "Verankerte Aussagen" ist der Anteil der atomaren faktischen Aussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.

#ModellAnbieterKlasseGen. alleinGen. + ObsidianZuwachsZitiert die QuelleStatus korrektVerankerte Aussagen (allein → +Obs)LatenzGeschwindigkeitPreis /1MKosten / Frage
1gpt-5.4-miniOpenAImittel63.095.8+32.896%100%35% → 97%1.14s83 tok/s$0.7$0.000486
2grok-4.3xAImittel53.195.8+42.797%100%29% → 94%3.22s120 tok/s$1.562$0.002179
3gpt-5.4-nanoOpenAIleicht38.395.5+57.295%100%22% → 96%1.21s84 tok/s$0.463$0.000302
4opus-4.8Anthropicfortgeschritten58.495.5+37.197%100%20% → 85%3.7s71 tok/s$10.0$0.013676
5gemini-3.1-flash-liteGoogleleicht56.395.4+39.193%100%22% → 98%0.74s118 tok/s$0.175$0.000125
6gpt-5.5OpenAIfortgeschritten40.795.4+54.795%100%46% → 96%4.76s33 tok/s$11.25$0.009351
7grok-4.20-reasoningxAIfortgeschritten56.495.0+38.696%100%24% → 92%2.49s225 tok/s$6.0$0.012179
8sonnet-4.6Anthropicmittel59.195.0+35.996%100%21% → 83%6.2s50 tok/s$6.0$0.007406
9grok-3-minixAIleicht49.794.8+45.195%98%32% → 91%3.19s118 tok/s$0.35$0.000479
10gemini-3.5-flashGooglemittel60.094.4+34.499%100%22% → 94%2.9s178 tok/s$3.375$0.006279
11gemini-3.1-proGooglefortgeschritten61.193.9+32.895%100%23% → 96%5.79s111 tok/s$6.0$0.013897
12haiku-4.5Anthropicleicht41.593.6+52.195%100%18% → 88%1.97s87 tok/s$2.0$0.001841

In einem Bereich, der veraltetes Wissen bestraft, sind die verbundene Genauigkeit und der Sprung bei den verankerten Aussagen die Tests, auf die es ankommt, und die Datenebene besteht beide.

Wie wir gemessen haben

  • Das vollständige Modellfeld von Anthropic, OpenAI, Google und xAI.
  • Hunderte komplexer Chemikalienaufgaben zu REACH, CLP, dem GHS der UN, den Übereinkommen von Stockholm, Basel, Rotterdam und Minamata sowie dem Global Framework on Chemicals, jede mit ihrer offiziellen Quelle und der geltenden Revision verknüpft.
  • Zwei Bedingungen: das Modell allein, und mit Obsidian verbunden.
  • Ein blinder Gutachter bewertet jede Antwort; die verankerten Aussagen stammen aus einer separaten Prüfung, Aussage für Aussage, gegen die offizielle Quelle.

Stellen Sie die offizielle Chemikalienquelle hinter jede Antwort

Verbinden Sie Obsidian mit der KI, die Sie bereits nutzen, und jede Antwort zu REACH, GHS oder den Übereinkommen kommt mit dem Regime, der aktuellen Beschränkung und der geltenden Revision zurück. Kostenlose Stufe, Einrichtung in zwei Minuten.

Die Obsidian-Datenebene entdecken

Was das bedeutet

Für Chemie- und Advanced-Materials-Teams, die Beschränkungen, Listungen und Einstufungen über Rechtsräume hinweg verfolgen, antwortet der Assistent, den Sie bereits nutzen, mit verifizierten Daten und angehängter offizieller Quelle, sodass eine regulatorische Fachkraft darauf aufbauen kann, statt alles nachzuprüfen. Der Hintergrund steht auch hier: Tier-0-Regulierungsdaten und agentische Regulatory Intelligence. Die vollständigen branchenübergreifenden Ergebnisse stehen im Regulatory-AI-Benchmark. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian-Regulierungsdatenebene.