Wenn Sie in der Nachhaltigkeit und im ESG-Reporting arbeiten, bewegt sich der Boden unter Ihren Füßen ständig weiter. Die CSRD hat eine Welle von Unternehmen in die Berichtspflicht gebracht, dann hat die Omnibus-Vereinfachung geändert, wer wann in den Anwendungsbereich fällt, während die EU-Taxonomie, die SFDR, die CSDDD und der CBAM jeweils eigene Schwellenwerte und Fristen mitbringen. Bitten Sie einen KI-Assistenten, irgendeinen dieser Punkte zu bestätigen, und die Antwort kommt flüssig und oft veraltet zurück: eine Anwendungsbereichsregel von vor der Vereinfachung, eine Frist, die sich inzwischen verschoben hat, eine Maßnahme, die als verbindlich zitiert wird, obwohl sie noch ein Vorschlag ist.

Die Modelle, die Sie bereits nutzen, argumentieren über ESG-Regeln völlig solide. Was ihnen fehlt, ist der Zugriff: Ein generalistisches Modell kann den aktuellen konsolidierten Text nicht öffnen und nicht wissen, was die letzte Änderung geändert hat. Geben Sie ihm diesen Text, und es hört auf zu raten.

Genau diesen Text liefert Obsidian, tief und aktuell zum EU-Nachhaltigkeitsrecht. Wir haben die Modelle durch Hunderte komplexer ESG-Aufgaben zu CSRD, ESRS, EU-Taxonomie, SFDR, CSDDD und CBAM geschickt, jede einmal allein und einmal mit Obsidian verbunden bearbeitet.

72 → 90
Durchschnittliche regulatorische Genauigkeit, dieselben Modelle allein vs verbunden (von 100)
30% → 89%
Anteil der faktischen Aussagen einer Antwort, die in der offiziellen Quelle verankert sind
93%
Verbundene Antworten, die die richtige offizielle Quelle zitierten

KI ist bei ESG-Regulierung ungenau

Allein erreichten die Modelle im Durchschnitt 72 von 100. Verbinden Sie sie mit Obsidian, und der Durchschnitt steigt auf 90. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen haben es.

Regulatorische Genauigkeit im Verhältnis zum Preis pro 1M Tokens
Regulatorische Genauigkeit gegen den Preis. Mit Obsidian verbunden (die breiteren Marker) konvergiert jedes Modell nach oben.
Regulatorische Genauigkeit im Verhältnis zur durchschnittlichen Antwortzeit in Sekunden
Dasselbe gegen die Antwortzeit.

ESG ist das Gebiet, auf dem generalistische Modelle für sich genommen am stärksten wirken, weil diese Rahmenwerke überall diskutiert werden, und genau das macht das Ergebnis so aussagekräftig: Selbst hier verfehlt das Modell den aktuellen Anwendungsbereich, die Schwellenwerte nach der Vereinfachung und die Frage, ob eine Maßnahme tatsächlich in Kraft ist. Die Datenschicht schließt diese Lücke. gemini-3.1-flash-lite, zu $0.175 pro Million Tokens, steigt verbunden von 70 auf 95, der beste Wert der Tabelle, vor jedem Modell, das ein Vielfaches kostet. Ein Modell der leichten Klasse, mit Obsidian verbunden, schlug ein Spitzenmodell, das allein antwortete, in 16 von 16 direkten Vergleichen auf dem ESG-Set.

KI kann Sie nicht auf die offizielle ESG-Quelle verweisen

Für ein Nachhaltigkeitsteam ist das Zitat das Arbeitsergebnis. Mit Obsidian verbunden kommt eine Antwort mit dem offiziellen Rechtsakt an, der Richtlinie oder Verordnung hinter CSRD, Taxonomie, SFDR oder CSDDD, mit ihrem aktuellen Status und einem direkten Link. Allein erhalten Sie eine plausible Referenz, die Sie anschließend selbst aufspüren und datieren müssen, auf einem Feld, auf dem die Fassung und der Geltungsstatus die ganze Antwort sind.

Eine Antwort mit der tier-0-Quelle im Anhang ist eine Antwort, die Sie ohne erneute Prüfung an einen Prüfer weiterleiten können. Das ist der Unterschied zwischen einem Entwurf, den ein Modell sich ausgedacht hat, und einer Pflicht, nach der Sie handeln können.

KI halluziniert

Wir haben jede Antwort in ihre einzelnen faktischen Aussagen zerlegt und jede gegen die offizielle Quelle geprüft. Der Abstand zwischen den beiden Zahlen zu verankerten Aussagen oben ist das, was zählt, auf einem Feld, auf dem eine falsche Frist oder ein für verbindliches Recht gehaltener Entwurf zu einer Falschangabe in einem veröffentlichten Bericht wird. Was verschwindet, ist die selbstbewusste Behauptung ohne Substanz; der nicht verankerte Rest ist ergänzender Kontext, keine erfundenen Referenzen.

Die vollständigen Daten, für die Puristen

Jedes Modell, beide Bedingungen. "Allein" ist das Modell ohne Datenschicht; "mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Wert von 0 bis 100, vergeben von einem blinden Bewerter gegen eine von Menschen verifizierte Referenzwahrheit. "Verankerte Aussagen" ist der Anteil der atomaren faktischen Aussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.

#ModellAnbieterKlasseGen. alleinGen. + ObsidianZuwachsZitiert die QuelleStatus korrektVerankerte Aussagen (allein → +Obs)LatenzGeschwindigkeitPreis /1MKosten / Frage
1gemini-3.1-flash-liteGoogleleicht69.594.6+25.196%100%23% → 98%0.86s127 tok/s$0.175$0.000188
2gpt-5.4-nanoOpenAIleicht56.893.7+36.990%98%41% → 93%1.59s75 tok/s$0.463$0.000408
3gpt-5.4-miniOpenAImittel84.493.6+9.294%100%41% → 99%1.33s84 tok/s$0.7$0.000689
4opus-4.8Anthropicfortgeschritten81.193.3+12.296%100%24% → 87%5.94s65 tok/s$10.0$0.019428
5sonnet-4.6Anthropicmittel81.092.6+11.694%100%24% → 73%7.83s49 tok/s$6.0$0.009912
6haiku-4.5Anthropicleicht58.990.3+31.493%100%23% → 87%3.01s77 tok/s$2.0$0.002546
7gpt-5.5OpenAIfortgeschritten74.289.7+15.595%100%45% → 93%5.2s44 tok/s$11.25$0.014132
8grok-3-minixAIleicht69.087.0+18.096%100%36% → 88%3.27s126 tok/s$0.35$0.000617
9grok-4.20-reasoningxAIfortgeschritten77.786.8+9.191%95%30% → 88%3.04s214 tok/s$6.0$0.015101
10grok-4.3xAImittel74.086.4+12.488%95%36% → 88%3.2s126 tok/s$1.562$0.002703
11gemini-3.1-proGooglefortgeschritten69.386.0+16.788%95%31% → 96%6.21s107 tok/s$6.0$0.016565
12gemini-3.5-flashGooglemittel67.983.7+15.890%95%29% → 92%3.41s180 tok/s$3.375$0.0089

Bei ESG erzielen Modelle schon aus der öffentlichen Diskussion heraus gute Werte, was die verbundene Genauigkeit und den Sprung bei den verankerten Aussagen zu den härteren Tests macht, und die Datenschicht besteht beide.

Wie wir gemessen haben

  • Das vollständige Modellset von Anthropic, OpenAI, Google und xAI.
  • Hunderte komplexe ESG-Aufgaben zu CSRD, ESRS, EU-Taxonomie, SFDR, CSDDD und CBAM, jede mit ihrer offiziellen Referenz und ihrem aktuellen Status verknüpft. Aufgaben außerhalb der aktuellen ESG-Abdeckung von Obsidian werden ausgeklammert, sodass der Wert die Antwortqualität widerspiegelt.
  • Zwei Bedingungen: das Modell allein, und mit Obsidian verbunden.
  • Ein blinder Bewerter benotet jede Antwort; die verankerten Aussagen stammen aus einer separaten Prüfung, Aussage für Aussage, gegen die offizielle Quelle.

Legen Sie die offizielle ESG-Quelle hinter jede Antwort

Verbinden Sie Obsidian mit der KI, die Sie bereits nutzen, und jede Antwort zu CSRD, Taxonomie oder SFDR kommt mit ihrem offiziellen Rechtsakt, Datum und aktuellem Status zurück. Kostenlose Stufe, Einrichtung in zwei Minuten.

Die Obsidian-Datenschicht entdecken

Was das bedeutet

Sie brauchen kein teureres Modell, und Sie müssen keine Vermutungen über ein Regelwerk hinnehmen, das sich jedes Quartal bewegt. Der Assistent, den Ihr Team bereits nutzt, antwortet mit verifizierten ESG-Daten und dem geltenden Rechtsakt im Anhang, sodass eine Nachhaltigkeitsverantwortliche danach handeln kann, statt alles nachzuprüfen. Der Hintergrund findet sich auch hier: Regulatorische Intelligenz zu ESG und CSRD und tier-0-Regulierungsdaten. Die vollständigen branchenübergreifenden Ergebnisse stehen im Benchmark regulatorischer KI. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian-Datenschicht für Regulierungsdaten.