Wenn Sie in Regulatory Affairs oder im Qualitätsmanagement für Medizinprodukte oder Pharma arbeiten, entscheidet ein Detail darüber, ob eine Antwort brauchbar ist: die Ausgabe. ISO 13485, ISO 14971, ISO 14155, IEC 62304 und die ICH-Leitlinien werden alle überarbeitet, und eine ersetzte Ausgabe in einer Einreichung oder einem Audit zu zitieren ist kein kleiner Ausrutscher, sondern eine Abweichung. Fragen Sie eine KI, welche Ausgabe aktuell gilt, was die letzte Revision der guten klinischen Praxis geändert hat oder welche Leitlinie KI- und Machine-Learning-Produkte abdeckt: Sie antwortet flüssig mit der Ausgabe, mit der sie trainiert wurde, und die kann bereits zurückgezogen sein.

Die Modelle argumentieren über die Normen völlig souverän. Was ihnen fehlt, ist der Zugriff: Ein generalistisches Modell kann nicht wissen, welche Ausgabe heute in Kraft ist. Geben Sie ihm den aktuellen Text, und es hört auf zu raten.

Genau diesen Text liefert Obsidian, mit Tiefe bei den globalen Life-Sciences-Normen. Wir haben die Modelle durch Hunderte komplexer Aufgaben zu den ISO- und IEC-Medtech-Normen, den ICH-Leitlinien und den IMDRF-Leitfäden geschickt, jede einmal vom Modell allein und einmal mit Obsidian verbunden bearbeitet.

52 → 96
Durchschnittliche regulatorische Genauigkeit, dieselben Modelle allein vs. verbunden (von 100)
31% → 94%
Anteil der Tatsachenaussagen einer Antwort, die in der offiziellen Quelle belegt sind
97%
Verbundene Antworten, die die korrekte offizielle Quelle zitierten

KI ist ungenau bei regulatorischer Arbeit in den Life Sciences

Allein erreichten die Modelle im Schnitt 52 von 100. Verbinden Sie sie mit Obsidian, steigt der Durchschnitt auf 96. Das beste Gespann, gpt-5.5, erreichte 97.5. Die Modelle haben sich zwischen diesen beiden Zahlen nicht verändert. Nur die Daten vor ihnen.

Regulatorische Genauigkeit im Verhältnis zum Preis pro 1M Tokens
Regulatorische Genauigkeit gegen den Preis. Mit Obsidian verbunden (die breiteren Münzen) rücken alle Modelle nach oben zusammen.
Regulatorische Genauigkeit im Verhältnis zur durchschnittlichen Antwortzeit in Sekunden
Dasselbe gegen die Antwortzeit.

Die Life Sciences sind der deutlichste Fall für eine Datenschicht im gesamten Benchmark: Ausgaben ändern sich ständig, und ein Modell, das aus dem Gedächtnis arbeitet, zitiert die Ausgabe, die es gelernt hat, statt der geltenden. Genau an dieser einen Lücke bleibt eine Einreichung hängen. gemini-3.1-flash-lite, für $0.175 pro Million Tokens, klettert einmal verbunden von 56 auf 97, in die Liga von Modellen, die ein Vielfaches kosten. Ein leichtes Modell mit Obsidian schlug ein Frontier-Modell ohne Anbindung in 16 von 16 direkten Vergleichen auf dem Life-Sciences-Set.

KI kann Ihnen die offizielle Norm nicht nennen

Hier ist die Ausgabe die Antwort. Mit Obsidian verbunden kommt eine Antwort mit der Norm, ihrer aktuellen Ausgabe, der herausgebenden Organisation und einem direkten Link. Allein erhalten Sie ein plausibles Zitat, oft die falsche Ausgabe, das Sie selbst prüfen müssen. Für eine Prüfung durch eine Benannte Stelle oder eine regulatorische Einreichung ist der Unterschied zwischen der aktuellen und einer zurückgezogenen Ausgabe der Unterschied zwischen einer verteidigbaren Akte und einer Abweichung.

Eine Antwort mit angehängter Tier-0-Quelle können Sie einem Auditor weiterleiten, ohne sie nachzuprüfen. Das ist der Unterschied zwischen einem Entwurf, den sich ein Modell ausgedacht hat, und einer Pflicht, nach der Sie handeln können.

KI halluziniert

Wir haben jede Antwort in ihre einzelnen Tatsachenaussagen zerlegt und jede gegen die offizielle Quelle geprüft. Die Lücke zwischen den beiden Belegquoten oben ist genau die gefährliche Fehlerart, die verschwindet, auf einem Feld, auf dem eine einzige falsche Ausgabe eine Einreichung untergräbt. Der nicht belegte Rest ist ergänzender Kontext, keine erfundenen Referenzen.

Die vollständigen Daten, für die Puristen

Jedes Modell, beide Bedingungen. "Allein" ist das Modell ohne Datenschicht; "mit Obsidian" ist dasselbe Modell verbunden. Die Genauigkeit ist ein Score von 0 bis 100, vergeben von einem blinden Bewertungsverfahren gegen eine von Menschen verifizierte Referenz. "Belegte Aussagen" ist der Anteil der atomaren Tatsachenaussagen der Antwort, die sich auf die offizielle Quelle zurückführen lassen, allein gegenüber mit Obsidian.

#ModellAnbieterStufeGen. alleinGen. + ObsidianZuwachsNennt QuelleStatus korrektBelegte Aussagen (allein → +Obs)LatenzTempoPreis /1MKosten / Frage
1gpt-5.5OpenAIfortgeschritten38.197.5+59.496%100%42% → 98%4.73s49 tok/s$11.25$0.026259
2grok-3-minixAIleicht46.597.2+50.799%100%34% → 94%3.21s136 tok/s$0.35$0.001342
3gpt-5.4-nanoOpenAIleicht34.597.0+62.597%100%24% → 98%1.49s88 tok/s$0.463$0.000922
4gemini-3.1-flash-liteGoogleleicht56.296.8+40.698%100%30% → 98%0.86s139 tok/s$0.175$0.000469
5gpt-5.4-miniOpenAImittel63.196.7+33.697%100%38% → 95%1.28s87 tok/s$0.7$0.001685
6grok-4.20-reasoningxAIfortgeschritten62.696.6+34.096%100%30% → 96%2.86s226 tok/s$6.0$0.021106
7opus-4.8Anthropicfortgeschritten65.396.6+31.396%100%28% → 93%5.86s69 tok/s$10.0$0.039476
8gemini-3.5-flashGooglemittel57.296.3+39.199%100%34% → 98%3.62s183 tok/s$3.375$0.012549
9grok-4.3xAImittel44.596.3+51.898%100%32% → 97%3.21s132 tok/s$1.562$0.005775
10haiku-4.5Anthropicleicht32.796.3+63.698%100%22% → 90%3.98s64 tok/s$2.0$0.005482
11sonnet-4.6Anthropicmittel63.395.0+31.796%100%26% → 85%9.57s42 tok/s$6.0$0.019201
12gemini-3.1-proGooglefortgeschritten62.894.5+31.792%100%42% → 98%6.25s107 tok/s$6.0$0.020789

Die Life Sciences zeigen die größte Lücke zwischen einem Modell, das aus dem Gedächtnis arbeitet, und einem, das die geltende Norm liest, genau dort, wo eine gepflegte Datenschicht ihren Platz verdient.

Wie wir gemessen haben

  • Das vollständige Modellset von Anthropic, OpenAI, Google und xAI.
  • Hunderte komplexer Life-Sciences-Aufgaben zu den ISO- und IEC-Medtech-Normen (Qualität, Risiko, Klinik, Software, Biokompatibilität), den ICH-Leitlinien und den IMDRF-Leitfäden, jede mit ihrer offiziellen Quelle und der aktuellen Ausgabe verknüpft.
  • Zwei Bedingungen: das Modell allein, und mit Obsidian verbunden.
  • Eine blinde Bewertung benotet jede Antwort; die belegten Aussagen stammen aus einer separaten Prüfung, Aussage für Aussage, gegen die offizielle Quelle.

Stellen Sie die richtige Ausgabe jeder Norm hinter Ihre KI

Verbinden Sie Obsidian mit der KI, die Sie bereits nutzen, und jede Antwort zu Normen kommt mit der aktuellen Ausgabe und der herausgebenden Organisation zurück. Kostenlose Stufe, Einrichtung in zwei Minuten.

Die Obsidian-Datenschicht entdecken

Was das bedeutet

Für Regulatory- und Qualitätsteams in Medizintechnik und Pharma hört der Assistent, den Sie bereits nutzen, mit verifizierten Daten auf, zurückgezogene Ausgaben zu zitieren, und antwortet mit der Norm und der Ausgabe, die tatsächlich in Kraft sind, sodass sich ein Prüfer in einer Einreichung darauf verlassen kann. Der Hintergrund steht hier: Tier-0-Regulierungsdaten und agentische Regulatory Intelligence. Die vollständigen branchenübergreifenden Ergebnisse stehen im Regulatory-AI-Benchmark. Um es mit Ihren eigenen Fragen zu testen, verbinden Sie die Obsidian-Datenschicht für Regulierungsdaten.