Wenn Sie in der Nachhaltigkeit und im ESG-Reporting arbeiten, bewegt sich der Boden unter Ihren Füßen ständig weiter. Die CSRD hat eine Welle von Unternehmen in die Berichtspflicht gebracht, dann hat die Omnibus-Vereinfachung geändert, wer wann in den Anwendungsbereich fällt, während die EU-Taxonomie, die SFDR, die CSDDD und der CBAM jeweils eigene Schwellenwerte und Fristen mitbringen. Bitten Sie einen KI-Assistenten, irgendeinen dieser Punkte zu bestätigen, und die Antwort kommt flüssig und oft veraltet zurück: eine Anwendungsbereichsregel von vor der Vereinfachung, eine Frist, die sich inzwischen verschoben hat, eine Maßnahme, die als verbindlich zitiert wird, obwohl sie noch ein Vorschlag ist.
Die Modelle, die Sie bereits nutzen, argumentieren über ESG-Regeln völlig solide. Was ihnen fehlt, ist der Zugriff: Ein generalistisches Modell kann den aktuellen konsolidierten Text nicht öffnen und nicht wissen, was die letzte Änderung geändert hat. Geben Sie ihm diesen Text, und es hört auf zu raten.
Genau diesen Text liefert Obsidian, tief und aktuell zum EU-Nachhaltigkeitsrecht. Wir haben die Modelle durch Hunderte komplexer ESG-Aufgaben zu CSRD, ESRS, EU-Taxonomie, SFDR, CSDDD und CBAM geschickt, jede einmal allein und einmal mit Obsidian verbunden bearbeitet.
KI ist bei ESG-Regulierung ungenau
Allein erreichten die Modelle im Durchschnitt 72 von 100. Verbinden Sie sie mit Obsidian, und der Durchschnitt steigt auf 90. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen haben es.
ESG ist das Gebiet, auf dem generalistische Modelle für sich genommen am stärksten wirken, weil diese Rahmenwerke überall diskutiert werden, und genau das macht das Ergebnis so aussagekräftig: Selbst hier verfehlt das Modell den aktuellen Anwendungsbereich, die Schwellenwerte nach der Vereinfachung und die Frage, ob eine Maßnahme tatsächlich in Kraft ist. Die Datenschicht schließt diese Lücke. gemini-3.1-flash-lite, zu $0.175 pro Million Tokens, steigt verbunden von 70 auf 95, der beste Wert der Tabelle, vor jedem Modell, das ein Vielfaches kostet. Ein Modell der leichten Klasse, mit Obsidian verbunden, schlug ein Spitzenmodell, das allein antwortete, in 16 von 16 direkten Vergleichen auf dem ESG-Set.
KI kann Sie nicht auf die offizielle ESG-Quelle verweisen
Für ein Nachhaltigkeitsteam ist das Zitat das Arbeitsergebnis. Mit Obsidian verbunden kommt eine Antwort mit dem offiziellen Rechtsakt an, der Richtlinie oder Verordnung hinter CSRD, Taxonomie, SFDR oder CSDDD, mit ihrem aktuellen Status und einem direkten Link. Allein erhalten Sie eine plausible Referenz, die Sie anschließend selbst aufspüren und datieren müssen, auf einem Feld, auf dem die Fassung und der Geltungsstatus die ganze Antwort sind.
Eine Antwort mit der tier-0-Quelle im Anhang ist eine Antwort, die Sie ohne erneute Prüfung an einen Prüfer weiterleiten können. Das ist der Unterschied zwischen einem Entwurf, den ein Modell sich ausgedacht hat, und einer Pflicht, nach der Sie handeln können.
KI halluziniert
Wir haben jede Antwort in ihre einzelnen faktischen Aussagen zerlegt und jede gegen die offizielle Quelle geprüft. Der Abstand zwischen den beiden Zahlen zu verankerten Aussagen oben ist das, was zählt, auf einem Feld, auf dem eine falsche Frist oder ein für verbindliches Recht gehaltener Entwurf zu einer Falschangabe in einem veröffentlichten Bericht wird. Was verschwindet, ist die selbstbewusste Behauptung ohne Substanz; der nicht verankerte Rest ist ergänzender Kontext, keine erfundenen Referenzen.
Die vollständigen Daten, für die Puristen
Jedes Modell, beide Bedingungen. "Allein" ist das Modell ohne Datenschicht; "mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Wert von 0 bis 100, vergeben von einem blinden Bewerter gegen eine von Menschen verifizierte Referenzwahrheit. "Verankerte Aussagen" ist der Anteil der atomaren faktischen Aussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.
| # | Modell | Anbieter | Klasse | Gen. allein | Gen. + Obsidian | Zuwachs | Zitiert die Quelle | Status korrekt | Verankerte Aussagen (allein → +Obs) | Latenz | Geschwindigkeit | Preis /1M | Kosten / Frage |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gemini-3.1-flash-lite | leicht | 69.5 | 94.6 | +25.1 | 96% | 100% | 23% → 98% | 0.86s | 127 tok/s | $0.175 | $0.000188 | |
| 2 | gpt-5.4-nano | OpenAI | leicht | 56.8 | 93.7 | +36.9 | 90% | 98% | 41% → 93% | 1.59s | 75 tok/s | $0.463 | $0.000408 |
| 3 | gpt-5.4-mini | OpenAI | mittel | 84.4 | 93.6 | +9.2 | 94% | 100% | 41% → 99% | 1.33s | 84 tok/s | $0.7 | $0.000689 |
| 4 | opus-4.8 | Anthropic | fortgeschritten | 81.1 | 93.3 | +12.2 | 96% | 100% | 24% → 87% | 5.94s | 65 tok/s | $10.0 | $0.019428 |
| 5 | sonnet-4.6 | Anthropic | mittel | 81.0 | 92.6 | +11.6 | 94% | 100% | 24% → 73% | 7.83s | 49 tok/s | $6.0 | $0.009912 |
| 6 | haiku-4.5 | Anthropic | leicht | 58.9 | 90.3 | +31.4 | 93% | 100% | 23% → 87% | 3.01s | 77 tok/s | $2.0 | $0.002546 |
| 7 | gpt-5.5 | OpenAI | fortgeschritten | 74.2 | 89.7 | +15.5 | 95% | 100% | 45% → 93% | 5.2s | 44 tok/s | $11.25 | $0.014132 |
| 8 | grok-3-mini | xAI | leicht | 69.0 | 87.0 | +18.0 | 96% | 100% | 36% → 88% | 3.27s | 126 tok/s | $0.35 | $0.000617 |
| 9 | grok-4.20-reasoning | xAI | fortgeschritten | 77.7 | 86.8 | +9.1 | 91% | 95% | 30% → 88% | 3.04s | 214 tok/s | $6.0 | $0.015101 |
| 10 | grok-4.3 | xAI | mittel | 74.0 | 86.4 | +12.4 | 88% | 95% | 36% → 88% | 3.2s | 126 tok/s | $1.562 | $0.002703 |
| 11 | gemini-3.1-pro | fortgeschritten | 69.3 | 86.0 | +16.7 | 88% | 95% | 31% → 96% | 6.21s | 107 tok/s | $6.0 | $0.016565 | |
| 12 | gemini-3.5-flash | mittel | 67.9 | 83.7 | +15.8 | 90% | 95% | 29% → 92% | 3.41s | 180 tok/s | $3.375 | $0.0089 |
Bei ESG erzielen Modelle schon aus der öffentlichen Diskussion heraus gute Werte, was die verbundene Genauigkeit und den Sprung bei den verankerten Aussagen zu den härteren Tests macht, und die Datenschicht besteht beide.
Wie wir gemessen haben
- Das vollständige Modellset von Anthropic, OpenAI, Google und xAI.
- Hunderte komplexe ESG-Aufgaben zu CSRD, ESRS, EU-Taxonomie, SFDR, CSDDD und CBAM, jede mit ihrer offiziellen Referenz und ihrem aktuellen Status verknüpft. Aufgaben außerhalb der aktuellen ESG-Abdeckung von Obsidian werden ausgeklammert, sodass der Wert die Antwortqualität widerspiegelt.
- Zwei Bedingungen: das Modell allein, und mit Obsidian verbunden.
- Ein blinder Bewerter benotet jede Antwort; die verankerten Aussagen stammen aus einer separaten Prüfung, Aussage für Aussage, gegen die offizielle Quelle.
Legen Sie die offizielle ESG-Quelle hinter jede Antwort
Verbinden Sie Obsidian mit der KI, die Sie bereits nutzen, und jede Antwort zu CSRD, Taxonomie oder SFDR kommt mit ihrem offiziellen Rechtsakt, Datum und aktuellem Status zurück. Kostenlose Stufe, Einrichtung in zwei Minuten.
Die Obsidian-Datenschicht entdeckenWas das bedeutet
Sie brauchen kein teureres Modell, und Sie müssen keine Vermutungen über ein Regelwerk hinnehmen, das sich jedes Quartal bewegt. Der Assistent, den Ihr Team bereits nutzt, antwortet mit verifizierten ESG-Daten und dem geltenden Rechtsakt im Anhang, sodass eine Nachhaltigkeitsverantwortliche danach handeln kann, statt alles nachzuprüfen. Der Hintergrund findet sich auch hier: Regulatorische Intelligenz zu ESG und CSRD und tier-0-Regulierungsdaten. Die vollständigen branchenübergreifenden Ergebnisse stehen im Benchmark regulatorischer KI. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian-Datenschicht für Regulierungsdaten.