Se lavora negli affari regolatori o nella qualità nel settore dei dispositivi medici o del farmaceutico, un dettaglio decide se una risposta è utilizzabile: l'edizione. ISO 13485, ISO 14971, ISO 14155, IEC 62304 e le linee guida ICH vengono tutte revisionate, e citare un'edizione superata in una submission o in un audit non è una svista da poco, è una non conformità. Chieda a un'IA quale edizione è in vigore, che cosa ha cambiato l'ultima revisione della buona pratica clinica, o quale guida copre i dispositivi basati su IA e machine learning: risponderà con disinvoltura citando l'edizione su cui è stata addestrata, che potrebbe essere stata ritirata.

I modelli ragionano perfettamente sulle norme. Ciò che manca loro è l'accesso: un modello generalista non può sapere quale edizione è in vigore oggi. Gli si dia il testo aggiornato, e smette di tirare a indovinare.

Quel testo è ciò che fornisce Obsidian, in profondità sulle norme globali delle life sciences. Abbiamo sottoposto i modelli a centinaia di compiti complessi sulle norme medtech ISO e IEC, sulle linee guida ICH e sulle guide IMDRF, ciascuno affrontato dal modello da solo e poi collegato a Obsidian.

52 → 96
Accuratezza regolatoria media, gli stessi modelli da soli vs collegati (su 100)
31% → 94%
Quota delle affermazioni fattuali di una risposta fondate sulla fonte ufficiale
97%
Risposte collegate che hanno citato la fonte ufficiale corretta

L'IA è imprecisa nel lavoro regolatorio life sciences

Da soli, i modelli hanno ottenuto in media 52 su 100. Collegati a Obsidian, la media sale a 96. La coppia migliore, gpt-5.5, ha raggiunto 97.5. I modelli non sono cambiati tra questi due numeri. Sono cambiati solo i dati messi loro davanti.

Accuratezza regolatoria rispetto al prezzo per 1M di token
L'accuratezza regolatoria rispetto al prezzo. Collegati a Obsidian (le monete più larghe), tutti i modelli convergono verso l'alto.
Accuratezza regolatoria rispetto al tempo medio di risposta in secondi
Lo stesso confronto rispetto al tempo di risposta.

Le life sciences sono il caso più netto dell'intero benchmark a favore di un data layer: le edizioni cambiano di continuo, e un modello che lavora a memoria cita quella che ha imparato invece di quella in vigore. È esattamente lì che una submission si blocca. gemini-3.1-flash-lite, a $0.175 per milione di token, sale da 56 a 97 una volta collegato, nella fascia di modelli che costano molte volte di più. Un modello leggero collegato a Obsidian ha battuto un modello di frontiera che rispondeva da solo in 16 confronti diretti su 16 sul set life sciences.

L'IA non sa indicarle la norma ufficiale

Qui l'edizione è la risposta. Collegata a Obsidian, una risposta arriva con la norma, la sua edizione corrente, l'ente emittente e un link diretto. Da sola, ottiene una citazione plausibile, spesso l'edizione sbagliata, da verificare per conto proprio. Per una revisione da parte di un organismo notificato o una submission regolatoria, la differenza tra l'edizione corrente e una ritirata è la differenza tra un fascicolo difendibile e una non conformità.

Una risposta con la fonte tier-0 allegata è una risposta che può inoltrare a un auditor senza ricontrollarla. Questa è la differenza tra una bozza immaginata da un modello e un obbligo su cui può agire.

L'IA ha le allucinazioni

Abbiamo scomposto ogni risposta nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di affermazioni fondate riportati sopra è il tipo di errore pericoloso che scompare, in un campo dove una sola edizione sbagliata compromette una submission. Il residuo non fondato è contesto aggiunto, non riferimenti inventati.

I dati completi, per i puristi

Ogni modello, in entrambe le condizioni. "Da solo" è il modello senza data layer; "con Obsidian" è lo stesso modello collegato. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice in cieco rispetto a una ground truth verificata da persone. "Affermazioni fondate" è la quota delle affermazioni fattuali atomiche della risposta riconducibili alla fonte ufficiale, da solo e poi con Obsidian.

#ModelloProviderFasciaAcc. da soloAcc. + ObsidianGuadagnoCita la fonteStato correttoAffermazioni fondate (da solo → +Obs)LatenzaVelocitàPrezzo /1MCosto / domanda
1gpt-5.5OpenAIavanzato38.197.5+59.496%100%42% → 98%4.73s49 tok/s$11.25$0.026259
2grok-3-minixAIleggero46.597.2+50.799%100%34% → 94%3.21s136 tok/s$0.35$0.001342
3gpt-5.4-nanoOpenAIleggero34.597.0+62.597%100%24% → 98%1.49s88 tok/s$0.463$0.000922
4gemini-3.1-flash-liteGoogleleggero56.296.8+40.698%100%30% → 98%0.86s139 tok/s$0.175$0.000469
5gpt-5.4-miniOpenAIintermedio63.196.7+33.697%100%38% → 95%1.28s87 tok/s$0.7$0.001685
6grok-4.20-reasoningxAIavanzato62.696.6+34.096%100%30% → 96%2.86s226 tok/s$6.0$0.021106
7opus-4.8Anthropicavanzato65.396.6+31.396%100%28% → 93%5.86s69 tok/s$10.0$0.039476
8gemini-3.5-flashGoogleintermedio57.296.3+39.199%100%34% → 98%3.62s183 tok/s$3.375$0.012549
9grok-4.3xAIintermedio44.596.3+51.898%100%32% → 97%3.21s132 tok/s$1.562$0.005775
10haiku-4.5Anthropicleggero32.796.3+63.698%100%22% → 90%3.98s64 tok/s$2.0$0.005482
11sonnet-4.6Anthropicintermedio63.395.0+31.796%100%26% → 85%9.57s42 tok/s$6.0$0.019201
12gemini-3.1-proGoogleavanzato62.894.5+31.792%100%42% → 98%6.25s107 tok/s$6.0$0.020789

Le life sciences mostrano il divario più ampio tra un modello che lavora a memoria e uno che legge la norma in vigore, esattamente il punto in cui un data layer mantenuto si guadagna il suo posto.

Come abbiamo misurato

  • Il set completo di modelli di Anthropic, OpenAI, Google e xAI.
  • Centinaia di compiti complessi life sciences sulle norme medtech ISO e IEC (qualità, rischio, clinica, software, biocompatibilità), sulle linee guida ICH e sulle guide IMDRF, ciascuno legato alla sua fonte ufficiale e all'edizione corrente.
  • Due condizioni: il modello da solo, e collegato a Obsidian.
  • Un giudice in cieco valuta ogni risposta; le affermazioni fondate provengono da una verifica separata, affermazione per affermazione, rispetto alla fonte ufficiale.

Metta l'edizione giusta di ogni norma dietro la sua IA

Colleghi Obsidian all'IA che già usa e ogni risposta sulle norme tornerà con l'edizione corrente e l'ente emittente. Piano gratuito, configurazione in due minuti.

Scopra il data layer Obsidian

Che cosa significa

Per i team regolatori e qualità dei dispositivi medici e del farmaceutico, l'assistente che già usa, alimentato con dati verificati, smette di citare edizioni ritirate e inizia a rispondere con la norma e l'edizione realmente in vigore, così un revisore può farvi affidamento in una submission. Il contesto è qui: i dati regolatori tier-0 e l'intelligence regolatoria agentica. I risultati completi su tutti i settori sono nel benchmark dell'IA regolatoria. Per provarlo sulle sue domande, colleghi il data layer regolatorio Obsidian.