Stellen Sie ChatGPT eine regulatorische Frage, und die Antwort kommt schnell und selbstsicher zurück. Dann prüfen Sie nach: eine Verordnungsnummer, die nicht existiert, eine abgelöste Ausgabe, ein Entwurf, der als verbindlich zitiert wird. Nach genug solcher Erlebnisse scheint das Urteil klar: ChatGPT ist für regulatorische Arbeit nicht bereit.
Es ist das falsche Urteil. Die GPT-Modelle, die alle nutzen, sind zu regulatorischem Denken durchaus fähig. Was ihnen fehlt, ist die Reichweite: Ein generalistisches Modell antwortet aus einem eingefrorenen Abbild des Webs, ohne die Möglichkeit, den tatsächlichen Text einer Verordnung zu öffnen oder zu wissen, ob sie heute in Kraft ist. Geben Sie ihm diesen Text, und es hört auf zu raten.
Diesen Text liefert Obsidian. Wir haben die GPT-Modelle, GPT-5.4-nano, GPT-5.4-mini und GPT-5.5, durch Hunderte komplexer regulatorischer Aufgaben in den Bereichen ESG, Chemikalien und Life Sciences geschickt, jede einmal vom Modell allein und einmal verbunden mit Obsidian bearbeitet.
ChatGPT ist für regulatorische Arbeit ungenau
Allein erreichten die drei GPT-Modelle im Schnitt 54 von 100. Verbinden Sie sie mit Obsidian, und der Durchschnitt steigt auf 95. Das beste Gespann, gpt-5.4-mini, erreichte 95.5. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen haben es.
Der Star ist das kleinste Modell. gpt-5.4-nano, zu $0.463 pro Million Tokens, klettert einmal verbunden von 42 auf 96, hinein in das Band von Modellen, die ein Vielfaches kosten. Bei Regulierung wiegt die Datenschicht schwerer als die Modellgröße: Sie geben die Daten einem kleinen, schnellen Modell, statt ein größeres zu kaufen, und die Tabelle pro Modell zeigt dieselbe Konvergenz bei allen dreien.
ChatGPT kann Ihnen die offizielle Quelle nicht nennen
Genauigkeit ist nur die halbe Sache. Verbunden mit Obsidian legt eine GPT-Antwort ihre Arbeit offen: das Instrument, seine exakte Referenz und Ausgabe, den Rechtsstatus und einen direkten Link zum offiziellen Dokument, oft zum Quell-PDF. Allein erhalten Sie ein plausibles Zitat, das Sie selbst prüfen müssen. Verbunden kommt die Antwort bereits überprüfbar an, und genau diesen Teil braucht ein Compliance-Workflow wirklich.
Eine Antwort mit angehängter tier-0 Quelle ist eine Antwort, die Sie ohne erneute Prüfung an einen Auditor weiterleiten können. Das ist der Unterschied zwischen einem Entwurf, den ein Modell sich ausgedacht hat, und einer Pflicht, nach der Sie handeln können.
ChatGPT halluziniert
Wir haben jede GPT-Antwort in ihre einzelnen Tatsachenaussagen zerlegt und jede gegen die offizielle Quelle geprüft. Die Lücke zwischen den beiden Verankerungswerten oben ist die gefährliche Fehlerart, die verschwindet: die selbstsichere Aussage ohne Beleg dahinter. Der nicht verankerte Rest ist ergänzender Kontext rund um die Quelle, keine erfundenen Referenzen.
Die vollständigen Daten, für die Puristen
Jedes Modell, beide Bedingungen. „Allein" ist das Modell ohne Datenschicht; „mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Wert von 0 bis 100, vergeben von einem verblindeten Bewerter gegen eine von Menschen verifizierte Referenzwahrheit. „Verankerte Aussagen" ist der Anteil der atomaren Tatsachenaussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.
| # | Modell | Klasse | Gen. allein | Gen. + Obsidian | Zuwachs | Zitiert Quelle | Status korrekt | Verankerte Aussagen (allein → +Obs) | Latenz | Tempo | Preis /1M | Kosten / Frage |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.4-mini | mittel | 69.5 | 95.5 | +26.0 | 96% | 100% | 38% → 96% | 1.25s | 84 tok/s | $0.7 | $0.000966 |
| 2 | gpt-5.4-nano | leicht | 42.5 | 95.5 | +53.0 | 94% | 99% | 28% → 96% | 1.42s | 83 tok/s | $0.463 | $0.000551 |
| 3 | gpt-5.5 | fortgeschritten | 49.8 | 94.4 | +44.6 | 96% | 100% | 44% → 96% | 4.89s | 42 tok/s | $11.25 | $0.0167 |
Über alle Antworten gerechnet schlägt selbst das kleinste GPT, verbunden mit Obsidian, das Frontier-GPT, das allein antwortet, für weniger als einen Cent pro Frage.
Wie wir gemessen haben
- Drei GPT-Modelle: GPT-5.4-nano, GPT-5.4-mini, GPT-5.5.
- Hunderte komplexer regulatorischer Aufgaben über ESG (die CSRD, die ESRS, die EU-Taxonomie, SFDR), Chemikalien (REACH, das GHS der UN, die globalen Übereinkommen) und Life Sciences (die ISO- und IEC-Medtech-Normen, ICH, IMDRF), jede mit ihrer offiziellen Quelle verknüpft.
- Zwei Bedingungen: GPT allein, und GPT verbunden mit Obsidian.
- Ein verblindeter Bewerter benotet jede Antwort gegen eine von Menschen verifizierte Referenzwahrheit; die verankerten Aussagen stammen aus einer separaten Prüfung, Aussage für Aussage.
Machen Sie ChatGPT zum Modell in Zeile eins
Verbinden Sie Obsidian mit ChatGPT, und jede regulatorische Antwort kommt mit ihrer offiziellen Quelle, ihrem Datum und ihrem Rechtsstatus zurück, oft für weniger als einen Cent pro Frage. Kostenlose Stufe, Einrichtung in zwei Minuten.
Die Obsidian Datenschicht entdeckenWas das bedeutet
Das GPT, das Sie bereits nutzen, antwortet mit verifizierten regulatorischen Daten mit der Präzision eines Spezialisten und den Belegen eines Auditors. Der Hintergrund steht ebenfalls bereit: warum KI bei regulatorischen Fragen halluziniert, was tier-0 Regulierungsdaten sind, und die Idee der agentischen Regulierungsintelligenz. Die vollständigen Ergebnisse über alle Anbieter stehen im Regulierungs-KI-Benchmark. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian Regulierungsdatenschicht.