Stellen Sie ChatGPT eine regulatorische Frage, und die Antwort kommt schnell und selbstsicher zurück. Dann prüfen Sie nach: eine Verordnungsnummer, die nicht existiert, eine abgelöste Ausgabe, ein Entwurf, der als verbindlich zitiert wird. Nach genug solcher Erlebnisse scheint das Urteil klar: ChatGPT ist für regulatorische Arbeit nicht bereit.

Es ist das falsche Urteil. Die GPT-Modelle, die alle nutzen, sind zu regulatorischem Denken durchaus fähig. Was ihnen fehlt, ist die Reichweite: Ein generalistisches Modell antwortet aus einem eingefrorenen Abbild des Webs, ohne die Möglichkeit, den tatsächlichen Text einer Verordnung zu öffnen oder zu wissen, ob sie heute in Kraft ist. Geben Sie ihm diesen Text, und es hört auf zu raten.

Diesen Text liefert Obsidian. Wir haben die GPT-Modelle, GPT-5.4-nano, GPT-5.4-mini und GPT-5.5, durch Hunderte komplexer regulatorischer Aufgaben in den Bereichen ESG, Chemikalien und Life Sciences geschickt, jede einmal vom Modell allein und einmal verbunden mit Obsidian bearbeitet.

54 → 95
Durchschnittliche regulatorische Genauigkeit, dieselben Modelle allein und verbunden (von 100)
35% → 96%
Anteil der Tatsachenaussagen einer Antwort, die in der offiziellen Quelle verankert sind
95%
Verbundene Antworten, die die richtige offizielle Quelle zitierten

ChatGPT ist für regulatorische Arbeit ungenau

Allein erreichten die drei GPT-Modelle im Schnitt 54 von 100. Verbinden Sie sie mit Obsidian, und der Durchschnitt steigt auf 95. Das beste Gespann, gpt-5.4-mini, erreichte 95.5. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen haben es.

Regulatorische Genauigkeit im Verhältnis zum Preis pro 1M Tokens
Regulatorische Genauigkeit im Verhältnis zum Preis. Verbunden mit Obsidian (die breiteren Münzen) konvergiert jedes Modell nach oben.
Regulatorische Genauigkeit im Verhältnis zur durchschnittlichen Antwortzeit in Sekunden
Dieselbe Messung im Verhältnis zur Antwortzeit.

Der Star ist das kleinste Modell. gpt-5.4-nano, zu $0.463 pro Million Tokens, klettert einmal verbunden von 42 auf 96, hinein in das Band von Modellen, die ein Vielfaches kosten. Bei Regulierung wiegt die Datenschicht schwerer als die Modellgröße: Sie geben die Daten einem kleinen, schnellen Modell, statt ein größeres zu kaufen, und die Tabelle pro Modell zeigt dieselbe Konvergenz bei allen dreien.

ChatGPT kann Ihnen die offizielle Quelle nicht nennen

Genauigkeit ist nur die halbe Sache. Verbunden mit Obsidian legt eine GPT-Antwort ihre Arbeit offen: das Instrument, seine exakte Referenz und Ausgabe, den Rechtsstatus und einen direkten Link zum offiziellen Dokument, oft zum Quell-PDF. Allein erhalten Sie ein plausibles Zitat, das Sie selbst prüfen müssen. Verbunden kommt die Antwort bereits überprüfbar an, und genau diesen Teil braucht ein Compliance-Workflow wirklich.

Eine Antwort mit angehängter tier-0 Quelle ist eine Antwort, die Sie ohne erneute Prüfung an einen Auditor weiterleiten können. Das ist der Unterschied zwischen einem Entwurf, den ein Modell sich ausgedacht hat, und einer Pflicht, nach der Sie handeln können.

ChatGPT halluziniert

Wir haben jede GPT-Antwort in ihre einzelnen Tatsachenaussagen zerlegt und jede gegen die offizielle Quelle geprüft. Die Lücke zwischen den beiden Verankerungswerten oben ist die gefährliche Fehlerart, die verschwindet: die selbstsichere Aussage ohne Beleg dahinter. Der nicht verankerte Rest ist ergänzender Kontext rund um die Quelle, keine erfundenen Referenzen.

Die vollständigen Daten, für die Puristen

Jedes Modell, beide Bedingungen. „Allein" ist das Modell ohne Datenschicht; „mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Wert von 0 bis 100, vergeben von einem verblindeten Bewerter gegen eine von Menschen verifizierte Referenzwahrheit. „Verankerte Aussagen" ist der Anteil der atomaren Tatsachenaussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.

#ModellKlasseGen. alleinGen. + ObsidianZuwachsZitiert QuelleStatus korrektVerankerte Aussagen (allein → +Obs)LatenzTempoPreis /1MKosten / Frage
1gpt-5.4-minimittel69.595.5+26.096%100%38% → 96%1.25s84 tok/s$0.7$0.000966
2gpt-5.4-nanoleicht42.595.5+53.094%99%28% → 96%1.42s83 tok/s$0.463$0.000551
3gpt-5.5fortgeschritten49.894.4+44.696%100%44% → 96%4.89s42 tok/s$11.25$0.0167

Über alle Antworten gerechnet schlägt selbst das kleinste GPT, verbunden mit Obsidian, das Frontier-GPT, das allein antwortet, für weniger als einen Cent pro Frage.

Wie wir gemessen haben

  • Drei GPT-Modelle: GPT-5.4-nano, GPT-5.4-mini, GPT-5.5.
  • Hunderte komplexer regulatorischer Aufgaben über ESG (die CSRD, die ESRS, die EU-Taxonomie, SFDR), Chemikalien (REACH, das GHS der UN, die globalen Übereinkommen) und Life Sciences (die ISO- und IEC-Medtech-Normen, ICH, IMDRF), jede mit ihrer offiziellen Quelle verknüpft.
  • Zwei Bedingungen: GPT allein, und GPT verbunden mit Obsidian.
  • Ein verblindeter Bewerter benotet jede Antwort gegen eine von Menschen verifizierte Referenzwahrheit; die verankerten Aussagen stammen aus einer separaten Prüfung, Aussage für Aussage.

Machen Sie ChatGPT zum Modell in Zeile eins

Verbinden Sie Obsidian mit ChatGPT, und jede regulatorische Antwort kommt mit ihrer offiziellen Quelle, ihrem Datum und ihrem Rechtsstatus zurück, oft für weniger als einen Cent pro Frage. Kostenlose Stufe, Einrichtung in zwei Minuten.

Die Obsidian Datenschicht entdecken

Was das bedeutet

Das GPT, das Sie bereits nutzen, antwortet mit verifizierten regulatorischen Daten mit der Präzision eines Spezialisten und den Belegen eines Auditors. Der Hintergrund steht ebenfalls bereit: warum KI bei regulatorischen Fragen halluziniert, was tier-0 Regulierungsdaten sind, und die Idee der agentischen Regulierungsintelligenz. Die vollständigen Ergebnisse über alle Anbieter stehen im Regulierungs-KI-Benchmark. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian Regulierungsdatenschicht.