Claude gehört zu den stärksten Denkern, die man vor ein Problem setzen kann. Stellen Sie ihm jedoch eine regulatorische Frage, und die flüssige Antwort übersteht oft keinen Faktencheck: eine Verordnungsnummer, die es nicht gibt, eine veraltete Ausgabe, ein Entwurf, zitiert, als wäre er verbindlich. Der naheliegende Schluss ist, dass selbst einem so fähigen Modell bei Regulierung nicht zu trauen ist.

Es ist der falsche Schluss. Claudes Denkvermögen war nie das Problem, sein Zugriff war es. Ein generalistisches Modell antwortet aus einem eingefrorenen Abbild des Webs, ohne die Möglichkeit, den tatsächlichen Text einer Verordnung zu öffnen oder zu wissen, ob sie heute in Kraft ist. Geben Sie Claude diesen Text, und es hört auf zu raten.

Diesen Text liefert Obsidian. Wir haben die Claude-Modelle, Haiku 4.5, Sonnet 4.6 und Opus 4.8, Hunderte komplexer regulatorischer Aufgaben in ESG, Chemikalien und Life Sciences durchlaufen lassen, jede einmal allein und einmal mit Obsidian verbunden.

59 → 94
Durchschnittliche regulatorische Genauigkeit, dieselben Modelle allein vs. verbunden (von 100)
23% → 86%
Anteil der faktischen Aussagen einer Antwort, die in der offiziellen Quelle verankert sind
96%
Verbundene Antworten, die die korrekte offizielle Quelle zitierten

Claude ist bei regulatorischer Arbeit ungenau

Allein erreichten die Claude-Modelle im Schnitt 59 von 100. Mit Obsidian verbunden steigt der Schnitt auf 94. Die beste Kombination, opus-4.8, erreichte 95.2. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen.

Regulatorische Genauigkeit gegenüber dem Preis pro 1M Token
Regulatorische Genauigkeit gegenüber dem Preis. Mit Obsidian verbunden (die breiteren Münzen) konvergiert jedes Modell nach oben.
Regulatorische Genauigkeit gegenüber der durchschnittlichen Antwortzeit in Sekunden
Dasselbe gegenüber der Antwortzeit.

Das leichteste Claude-Modell führt den Beweis allein. haiku-4.5, zu $2.0 pro Million Token, steigt verbunden von 44 auf 94, in die Klasse von Modellen, die ein Vielfaches kosten. Sie brauchen nicht das größte Claude, um bei Regulierung genau zu sein; Sie müssen ihm die Daten geben, und die Tabelle pro Modell zeigt dieselbe Konvergenz bei allen dreien.

Claude kann Ihnen die offizielle Quelle nicht nennen

Genauigkeit ist nur die Hälfte. Mit Obsidian verbunden legt eine Claude-Antwort ihre Arbeit offen: das Instrument, seine exakte Referenz und Ausgabe, den Rechtsstatus und einen direkten Link zum offiziellen Dokument, oft das Quell-PDF. Allein schreibt Claude ein flüssiges Zitat, das Sie anschließend bestätigen müssen. Verbunden kommt das Zitat bereits überprüfbar an, und genau das braucht ein Regulatory-Team.

Eine Antwort mit angehängter Tier-0-Quelle können Sie an einen Auditor weiterleiten, ohne sie erneut zu prüfen. Das ist der Unterschied zwischen einem Entwurf, den sich ein Modell ausgedacht hat, und einer Pflicht, auf die Sie sich stützen können.

Claude halluziniert

Wir haben jede Claude-Antwort in ihre einzelnen faktischen Aussagen zerlegt und jede gegen die offizielle Quelle geprüft. Der Abstand zwischen den beiden oben genannten Werten für verankerte Aussagen ist die gefährliche Fehlerart, die verschwindet. Claude schreibt reichhaltige, ausgearbeitete Antworten und ergänzt Kontext über die strikte Quelle hinaus, weshalb der verbundene Wert nicht noch höher liegt; was verschwindet, ist die selbstsichere Aussage ohne Substanz dahinter.

Die vollständigen Daten, für die Puristen

Jedes Modell, beide Bedingungen. "Allein" ist das Modell ohne Datenebene; "mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Wert von 0 bis 100 von einem blinden Gutachter gegen von Menschen verifizierte Referenzantworten. "Verankerte Aussagen" ist der Anteil der atomaren faktischen Aussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.

#ModellKlasseGen. alleinGen. + ObsidianZuwachsZitiert die QuelleStatus korrektVerankerte Aussagen (allein → +Obs)LatenzGeschwindigkeitPreis /1MKosten / Frage
1opus-4.8fortgeschritten67.695.2+27.696%100%24% → 89%4.86s69 tok/s$10.0$0.024427
2sonnet-4.6mittel67.194.3+27.296%100%24% → 81%7.89s46 tok/s$6.0$0.012284
3haiku-4.5leicht43.693.5+49.996%100%21% → 88%2.85s75 tok/s$2.0$0.003326

Über alle Antworten hinweg schlägt das leichteste Claude-Modell mit Obsidian das allein antwortende Frontier-Claude, zu einem Bruchteil der Kosten.

Wie wir gemessen haben

  • Drei Claude-Modelle: Haiku 4.5, Sonnet 4.6, Opus 4.8.
  • Hunderte komplexer regulatorischer Aufgaben in ESG (CSRD, die ESRS, die EU-Taxonomie, SFDR), Chemikalien (REACH, das GHS der UN, die globalen Übereinkommen) und Life Sciences (die ISO- und IEC-Medtech-Normen, ICH, IMDRF), jede mit ihrer offiziellen Quelle verknüpft.
  • Zwei Bedingungen: Claude allein, und Claude mit Obsidian verbunden.
  • Ein blinder Gutachter bewertet jede Antwort gegen von Menschen verifizierte Referenzantworten; die verankerten Aussagen stammen aus einer separaten Prüfung pro Aussage.

Machen Sie Claude zum Modell in Zeile eins

Verbinden Sie Obsidian mit Claude, und jede regulatorische Antwort kommt mit ihrer offiziellen Quelle, ihrem Datum und ihrem Rechtsstatus zurück. Kostenlose Stufe, Einrichtung in zwei Minuten.

Die Obsidian-Datenebene entdecken

Was das bedeutet

Das Claude, das Sie bereits nutzen, antwortet mit verifizierten Regulierungsdaten mit der Präzision einer Fachkraft und den Belegen eines Auditors. Der Hintergrund steht auch hier: warum KI bei regulatorischen Fragen halluziniert, was Tier-0-Regulierungsdaten sind, und die Idee der agentischen Regulatory Intelligence. Die vollständigen anbieterübergreifenden Ergebnisse stehen im Regulatory-AI-Benchmark. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian-Regulierungsdatenebene.