Wenn ein KI-Assistent Ihnen eine regulatorische Antwort gibt, lautet die entscheidende Frage nicht "klingt das richtig". Sie lautet "woher stammt das, und kann ich es verteidigen". Diese Frage entscheidet sich vollständig auf der Ebene der zugrunde liegenden Daten. Nicht alle regulatorischen Daten sind gleich, und der Unterschied hat einen Namen: tier-0.
Dieser Artikel erklärt, was regulatorische tier-0-Daten bedeuten, wie sie sich mit den Daten vergleichen, auf denen die meisten KI-Antworten beruhen, was rohe amtliche Dokumente in etwas verwandelt, das ein Assistent sicher zitieren kann, und warum die Herkunft, nicht die sprachliche Eleganz, eine Antwort verteidigbar macht.
Die Stufen regulatorischer Daten
Denken Sie regulatorische Informationen in drei Stufen, gemessen an der Entfernung zur Quelle.
Tier-0: die primäre, amtliche Quelle
Das ist die Regulierung selbst, direkt von der Stelle, die sie erlassen hat: Aufsichtsbehörden, Amtsblätter, Agenturen und Normungsorganisationen. Beispiele sind EUR-Lex, die ECHA, die FDA und die EFRAG. Tier-0 ist per Definition maßgeblich, weil es die Quelle ist, nicht eine Beschreibung davon.
Tier-1: Aggregatoren und professionelle Zusammenfassungen
Newsletter, Kanzlei-Briefings und Datenbankanbieter, die tier-0 sammeln und zusammenfassen. Nützlich, aber einen Schritt entfernt: Es entstehen Zeitverzögerungen, Interpretation schleicht sich ein, und Sie erben die redaktionellen Entscheidungen anderer.
Tier-2: das offene Web
Blogs, Foren, Presseartikel und allgemeine Webseiten, die Regulierung erwähnen. Das ist der Großteil dessen, was ein generalistisches Modell während des Trainings aufgenommen hat. Es ist uneinheitlich, oft veraltet und bei den Details häufig falsch.
Warum eine mit tier-2 trainierte KI in der Compliance versagt
Ein generalistisches Modell hat die Welt überwiegend aus tier-2 gelernt: dem offenen Web. Für Allgemeinwissen ist das in Ordnung, für Regulierung ist es gefährlich, denn genau dort leben veraltete und ungenaue Informationen. Das Modell nimmt den Grundgedanken auf und verliert die Details, und genau so entstehen, wie wir in warum KI bei regulatorischen Fragen halluziniert zeigen, selbstsichere, falsche Antworten.
Tier-2-Trainingsdaten lassen sich nicht mit einem besseren Prompt reparieren. Die einzige Lösung ist, dem Modell im Moment der Frage tier-0-Daten zu geben, aus denen es antwortet.
Eine KI-Antwort ist nur so verteidigbar wie die Stufe der Daten, auf denen sie steht. Tier-0 hinein, zitierfähige Antwort heraus. Tier-2 hinein, plausible Vermutung heraus.
Was tier-0-Dokumente zu einer vertrauenswürdigen Schicht macht
Rohe amtliche Dokumente sind maßgeblich, aber unübersichtlich: Hunderte Herausgeber, Dutzende Formate, Duplikate, Änderungsrechtsakte und keine gemeinsame Struktur. Eine tier-0-Quelle ist notwendig, aber nicht hinreichend. Eine vertrauenswürdige Datenschicht muss dieses Material auch so aufbereiten, dass ein Assistent es sicher nutzen kann. Das bedeutet:
- Parsen und normalisieren. HTML, XML und PDF aus Hunderten Quellen, überführt in ein einziges kanonisches Schema.
- Deduplizieren und versionieren. Stabile Identifikatoren, damit ein neu veröffentlichter oder geänderter Text als neue Version erkannt wird, nicht als neuer Fakt.
- Datieren und Status kennzeichnen. Jeder Datensatz trägt die Information, wann er sich geändert hat und ob es sich um einen Entwurf, einen Text in Konsultation, einen verabschiedeten oder einen in Kraft befindlichen Text handelt.
- Validieren. Integritätsprüfungen, bevor irgendetwas ausgespielt wird, damit alles, was den Assistenten erreicht, stets auf ein amtliches Dokument zurückführt.
- Herkunft bewahren. Quelle und Link begleiten den Datensatz, bis in die Antwort hinein.
Das ist der Unterschied zwischen "wir haben ein paar Behörden gescrapt" und einer Schicht, die ein Assistent zitieren kann. Obsidian wendet diese Pipeline auf über 850 amtliche Quellen in über 50 Jurisdiktionen an: Die Daten sind nicht nur tier-0, sie sind nutzbar gemachtes tier-0.
Geben Sie Ihrer KI tier-0-Daten, keine Vermutungen aus dem offenen Web
Verbinden Sie Obsidian mit Claude, ChatGPT oder Cursor, und jede Antwort kommt mit ihrer amtlichen Quelle, ihrem Datum und ihrem Status zurück. Kostenloser Tarif, Einrichtung in zwei Minuten.
Das Obsidian MCP entdeckenWarum Herkunft gleich Verteidigbarkeit ist
In der Compliance liegt der Wert einer Antwort nicht nur darin, ob sie korrekt ist, sondern darin, ob Sie zeigen können, warum sie korrekt ist. Eine Antwort mit Herkunft, einer benannten amtlichen Quelle, einem Datum und einem Status, können Sie Ihrem Vorstand, Ihrem Prüfer oder Ihrer Aufsichtsbehörde vorlegen. Eine Antwort ohne Herkunft ist eine Behauptung, die Sie selbst nachprüfen müssen, und damit hat der Assistent Ihnen nichts erspart.
Die Herkunft ist auch das, was eine Antwort über die Zeit prüfbar macht. Wenn sich eine Regel ändert, zeigt ein versionierter, datierter Datensatz, was wahr war, als Sie gehandelt haben. Das ist in regulierter Arbeit kein Nice-to-have. Das ist die Aktenlage.
Wie Sie tier-0-Daten in Ihre KI bekommen
Sie müssen das nicht selbst nachbauen. Der praktische Weg ist, Ihren Assistenten über das Model Context Protocol mit einer gepflegten tier-0-Schicht zu verbinden, statt eine eigene Pipeline aufzubauen und zu befüllen. Zur Abwägung zwischen Selbstbauen und Verbinden siehe RAG vs. MCP für regulatorische KI. Für das große Ganze siehe agentische regulatorische Intelligenz.
Das Fazit
Die Qualität einer regulatorischen KI-Antwort wird entschieden, bevor das Modell ein Wort sagt: durch die Stufe der zugrunde liegenden Daten. Tier-0, aufbereitet und mit Herkunftsnachweis versehen, verwandelt eine selbstsichere Vermutung in eine verteidigbare Antwort. Wenn Sie eine KI für regulatorische Arbeit bewerten, fragen Sie nicht, wie klug das Modell ist. Fragen Sie, auf welcher Stufe seine Daten stehen.