Wenn Sie Chemikalien-Compliance verantworten, liegt die Schwierigkeit darin, dass nichts stillsteht. Stoffe rücken auf Beschränkungs- und Kandidatenlisten, Gefahreneinstufungen werden überarbeitet, die weltweite Entwicklung bei PFAS verschiebt sich laufend, und die internationalen Übereinkommen nehmen bei jeder Sitzung neue Einträge auf. Fragen Sie eine KI, ob ein Stoff unter REACH beschränkt ist, wie seine aktuelle GHS-Einstufung lautet oder ob ein persistenter Schadstoff gelistet wurde, und die Antwort kommt selbstsicher zurück und liegt oft eine oder zwei Revisionen zurück, mitunter unter Berufung auf eine Regel, die es nicht gibt.
Die Modelle argumentieren über Chemikalienrecht völlig schlüssig. Was ihnen fehlt, ist der Zugriff: Ein generalistisches Modell kann weder die aktuelle Beschränkungsliste noch den neuesten Text eines Übereinkommens öffnen und hat keine Möglichkeit zu wissen, welche Revision in Kraft ist. Geben Sie ihm diesen Text, und es hört auf zu raten.
Diesen Text liefert Obsidian, mit tiefer Abdeckung der weltweiten Chemikalienregime. Wir haben die Modelle Hunderte komplexer Chemikalienaufgaben zu REACH, CLP, dem GHS der UN sowie den Übereinkommen von Stockholm, Basel, Rotterdam und Minamata durchlaufen lassen, jede einmal allein und einmal mit Obsidian verbunden.
KI ist bei Chemikalienregulierung ungenau
Allein erreichten die Modelle im Schnitt 53 von 100. Mit Obsidian verbunden steigt der Schnitt auf 95. Die beste Kombination, gpt-5.4-mini, erreichte 95.8. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen.
Kaum ein Feld bestraft veraltetes Wissen härter als die Chemikalienarbeit: Ändert sich ein Beschränkungsstatus, eine Gefahreneinstufung oder eine Listung im letzten Quartal, ist eine Antwort auf Basis der Vorjahresrevision schlicht falsch. Genau hier verdient sich die Datenebene ihren Platz. gemini-3.1-flash-lite, zu $0.175 pro Million Token, steigt verbunden von 56 auf 95, in die Klasse von Modellen, die ein Vielfaches kosten. Ein leichtes Modell mit Obsidian schlug im Chemikalien-Set in 16 von 16 Direktvergleichen ein allein antwortendes Frontier-Modell.
KI kann Ihnen die offizielle Chemikalienquelle nicht nennen
Für ein Product-Stewardship- oder Regulatory-Affairs-Team ist das Zitat das Arbeitsergebnis. Mit Obsidian verbunden kommt eine Antwort mit dem Regime, der aktuellen Beschränkung oder Listung, der geltenden Revision und einem direkten Link zum offiziellen Text. Allein erhalten Sie eine plausible Referenz, die Sie selbst prüfen müssen, bei Fragen, in denen Status und Revision die ganze Antwort sind und eine Fehleinschätzung ein Produkt aufhalten kann.
Eine Antwort mit angehängter Tier-0-Quelle können Sie an einen Auditor weiterleiten, ohne sie erneut zu prüfen. Das ist der Unterschied zwischen einem Entwurf, den sich ein Modell ausgedacht hat, und einer Pflicht, auf die Sie sich stützen können.
KI halluziniert
Wir haben jede Antwort in ihre einzelnen faktischen Aussagen zerlegt und jede gegen die offizielle Quelle geprüft. Der Abstand zwischen den beiden oben genannten Werten für verankerte Aussagen ist, bei einer Stoffbeschränkung, einer Einstufung oder einer Listung, der Unterschied zwischen einer Antwort, auf die Sie sich stützen können, und einer, die Sie Zeile für Zeile nachprüfen. Der nicht verankerte Rest ist ergänzender Kontext, keine erfundenen Referenzen.
Die vollständigen Daten, für die Puristen
Jedes Modell, beide Bedingungen. "Allein" ist das Modell ohne Datenebene; "mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Wert von 0 bis 100 von einem blinden Gutachter gegen von Menschen verifizierte Referenzantworten. "Verankerte Aussagen" ist der Anteil der atomaren faktischen Aussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.
| # | Modell | Anbieter | Klasse | Gen. allein | Gen. + Obsidian | Zuwachs | Zitiert die Quelle | Status korrekt | Verankerte Aussagen (allein → +Obs) | Latenz | Geschwindigkeit | Preis /1M | Kosten / Frage |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.4-mini | OpenAI | mittel | 63.0 | 95.8 | +32.8 | 96% | 100% | 35% → 97% | 1.14s | 83 tok/s | $0.7 | $0.000486 |
| 2 | grok-4.3 | xAI | mittel | 53.1 | 95.8 | +42.7 | 97% | 100% | 29% → 94% | 3.22s | 120 tok/s | $1.562 | $0.002179 |
| 3 | gpt-5.4-nano | OpenAI | leicht | 38.3 | 95.5 | +57.2 | 95% | 100% | 22% → 96% | 1.21s | 84 tok/s | $0.463 | $0.000302 |
| 4 | opus-4.8 | Anthropic | fortgeschritten | 58.4 | 95.5 | +37.1 | 97% | 100% | 20% → 85% | 3.7s | 71 tok/s | $10.0 | $0.013676 |
| 5 | gemini-3.1-flash-lite | leicht | 56.3 | 95.4 | +39.1 | 93% | 100% | 22% → 98% | 0.74s | 118 tok/s | $0.175 | $0.000125 | |
| 6 | gpt-5.5 | OpenAI | fortgeschritten | 40.7 | 95.4 | +54.7 | 95% | 100% | 46% → 96% | 4.76s | 33 tok/s | $11.25 | $0.009351 |
| 7 | grok-4.20-reasoning | xAI | fortgeschritten | 56.4 | 95.0 | +38.6 | 96% | 100% | 24% → 92% | 2.49s | 225 tok/s | $6.0 | $0.012179 |
| 8 | sonnet-4.6 | Anthropic | mittel | 59.1 | 95.0 | +35.9 | 96% | 100% | 21% → 83% | 6.2s | 50 tok/s | $6.0 | $0.007406 |
| 9 | grok-3-mini | xAI | leicht | 49.7 | 94.8 | +45.1 | 95% | 98% | 32% → 91% | 3.19s | 118 tok/s | $0.35 | $0.000479 |
| 10 | gemini-3.5-flash | mittel | 60.0 | 94.4 | +34.4 | 99% | 100% | 22% → 94% | 2.9s | 178 tok/s | $3.375 | $0.006279 | |
| 11 | gemini-3.1-pro | fortgeschritten | 61.1 | 93.9 | +32.8 | 95% | 100% | 23% → 96% | 5.79s | 111 tok/s | $6.0 | $0.013897 | |
| 12 | haiku-4.5 | Anthropic | leicht | 41.5 | 93.6 | +52.1 | 95% | 100% | 18% → 88% | 1.97s | 87 tok/s | $2.0 | $0.001841 |
In einem Bereich, der veraltetes Wissen bestraft, sind die verbundene Genauigkeit und der Sprung bei den verankerten Aussagen die Tests, auf die es ankommt, und die Datenebene besteht beide.
Wie wir gemessen haben
- Das vollständige Modellfeld von Anthropic, OpenAI, Google und xAI.
- Hunderte komplexer Chemikalienaufgaben zu REACH, CLP, dem GHS der UN, den Übereinkommen von Stockholm, Basel, Rotterdam und Minamata sowie dem Global Framework on Chemicals, jede mit ihrer offiziellen Quelle und der geltenden Revision verknüpft.
- Zwei Bedingungen: das Modell allein, und mit Obsidian verbunden.
- Ein blinder Gutachter bewertet jede Antwort; die verankerten Aussagen stammen aus einer separaten Prüfung, Aussage für Aussage, gegen die offizielle Quelle.
Stellen Sie die offizielle Chemikalienquelle hinter jede Antwort
Verbinden Sie Obsidian mit der KI, die Sie bereits nutzen, und jede Antwort zu REACH, GHS oder den Übereinkommen kommt mit dem Regime, der aktuellen Beschränkung und der geltenden Revision zurück. Kostenlose Stufe, Einrichtung in zwei Minuten.
Die Obsidian-Datenebene entdeckenWas das bedeutet
Für Chemie- und Advanced-Materials-Teams, die Beschränkungen, Listungen und Einstufungen über Rechtsräume hinweg verfolgen, antwortet der Assistent, den Sie bereits nutzen, mit verifizierten Daten und angehängter offizieller Quelle, sodass eine regulatorische Fachkraft darauf aufbauen kann, statt alles nachzuprüfen. Der Hintergrund steht auch hier: Tier-0-Regulierungsdaten und agentische Regulatory Intelligence. Die vollständigen branchenübergreifenden Ergebnisse stehen im Regulatory-AI-Benchmark. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian-Regulierungsdatenebene.