Se lavora negli affari regolatori o nella qualità nel settore dei dispositivi medici o del farmaceutico, un dettaglio decide se una risposta è utilizzabile: l'edizione. ISO 13485, ISO 14971, ISO 14155, IEC 62304 e le linee guida ICH vengono tutte revisionate, e citare un'edizione superata in una submission o in un audit non è una svista da poco, è una non conformità. Chieda a un'IA quale edizione è in vigore, che cosa ha cambiato l'ultima revisione della buona pratica clinica, o quale guida copre i dispositivi basati su IA e machine learning: risponderà con disinvoltura citando l'edizione su cui è stata addestrata, che potrebbe essere stata ritirata.
I modelli ragionano perfettamente sulle norme. Ciò che manca loro è l'accesso: un modello generalista non può sapere quale edizione è in vigore oggi. Gli si dia il testo aggiornato, e smette di tirare a indovinare.
Quel testo è ciò che fornisce Obsidian, in profondità sulle norme globali delle life sciences. Abbiamo sottoposto i modelli a centinaia di compiti complessi sulle norme medtech ISO e IEC, sulle linee guida ICH e sulle guide IMDRF, ciascuno affrontato dal modello da solo e poi collegato a Obsidian.
L'IA è imprecisa nel lavoro regolatorio life sciences
Da soli, i modelli hanno ottenuto in media 52 su 100. Collegati a Obsidian, la media sale a 96. La coppia migliore, gpt-5.5, ha raggiunto 97.5. I modelli non sono cambiati tra questi due numeri. Sono cambiati solo i dati messi loro davanti.
Le life sciences sono il caso più netto dell'intero benchmark a favore di un data layer: le edizioni cambiano di continuo, e un modello che lavora a memoria cita quella che ha imparato invece di quella in vigore. È esattamente lì che una submission si blocca. gemini-3.1-flash-lite, a $0.175 per milione di token, sale da 56 a 97 una volta collegato, nella fascia di modelli che costano molte volte di più. Un modello leggero collegato a Obsidian ha battuto un modello di frontiera che rispondeva da solo in 16 confronti diretti su 16 sul set life sciences.
L'IA non sa indicarle la norma ufficiale
Qui l'edizione è la risposta. Collegata a Obsidian, una risposta arriva con la norma, la sua edizione corrente, l'ente emittente e un link diretto. Da sola, ottiene una citazione plausibile, spesso l'edizione sbagliata, da verificare per conto proprio. Per una revisione da parte di un organismo notificato o una submission regolatoria, la differenza tra l'edizione corrente e una ritirata è la differenza tra un fascicolo difendibile e una non conformità.
Una risposta con la fonte tier-0 allegata è una risposta che può inoltrare a un auditor senza ricontrollarla. Questa è la differenza tra una bozza immaginata da un modello e un obbligo su cui può agire.
L'IA ha le allucinazioni
Abbiamo scomposto ogni risposta nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di affermazioni fondate riportati sopra è il tipo di errore pericoloso che scompare, in un campo dove una sola edizione sbagliata compromette una submission. Il residuo non fondato è contesto aggiunto, non riferimenti inventati.
I dati completi, per i puristi
Ogni modello, in entrambe le condizioni. "Da solo" è il modello senza data layer; "con Obsidian" è lo stesso modello collegato. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice in cieco rispetto a una ground truth verificata da persone. "Affermazioni fondate" è la quota delle affermazioni fattuali atomiche della risposta riconducibili alla fonte ufficiale, da solo e poi con Obsidian.
| # | Modello | Provider | Fascia | Acc. da solo | Acc. + Obsidian | Guadagno | Cita la fonte | Stato corretto | Affermazioni fondate (da solo → +Obs) | Latenza | Velocità | Prezzo /1M | Costo / domanda |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.5 | OpenAI | avanzato | 38.1 | 97.5 | +59.4 | 96% | 100% | 42% → 98% | 4.73s | 49 tok/s | $11.25 | $0.026259 |
| 2 | grok-3-mini | xAI | leggero | 46.5 | 97.2 | +50.7 | 99% | 100% | 34% → 94% | 3.21s | 136 tok/s | $0.35 | $0.001342 |
| 3 | gpt-5.4-nano | OpenAI | leggero | 34.5 | 97.0 | +62.5 | 97% | 100% | 24% → 98% | 1.49s | 88 tok/s | $0.463 | $0.000922 |
| 4 | gemini-3.1-flash-lite | leggero | 56.2 | 96.8 | +40.6 | 98% | 100% | 30% → 98% | 0.86s | 139 tok/s | $0.175 | $0.000469 | |
| 5 | gpt-5.4-mini | OpenAI | intermedio | 63.1 | 96.7 | +33.6 | 97% | 100% | 38% → 95% | 1.28s | 87 tok/s | $0.7 | $0.001685 |
| 6 | grok-4.20-reasoning | xAI | avanzato | 62.6 | 96.6 | +34.0 | 96% | 100% | 30% → 96% | 2.86s | 226 tok/s | $6.0 | $0.021106 |
| 7 | opus-4.8 | Anthropic | avanzato | 65.3 | 96.6 | +31.3 | 96% | 100% | 28% → 93% | 5.86s | 69 tok/s | $10.0 | $0.039476 |
| 8 | gemini-3.5-flash | intermedio | 57.2 | 96.3 | +39.1 | 99% | 100% | 34% → 98% | 3.62s | 183 tok/s | $3.375 | $0.012549 | |
| 9 | grok-4.3 | xAI | intermedio | 44.5 | 96.3 | +51.8 | 98% | 100% | 32% → 97% | 3.21s | 132 tok/s | $1.562 | $0.005775 |
| 10 | haiku-4.5 | Anthropic | leggero | 32.7 | 96.3 | +63.6 | 98% | 100% | 22% → 90% | 3.98s | 64 tok/s | $2.0 | $0.005482 |
| 11 | sonnet-4.6 | Anthropic | intermedio | 63.3 | 95.0 | +31.7 | 96% | 100% | 26% → 85% | 9.57s | 42 tok/s | $6.0 | $0.019201 |
| 12 | gemini-3.1-pro | avanzato | 62.8 | 94.5 | +31.7 | 92% | 100% | 42% → 98% | 6.25s | 107 tok/s | $6.0 | $0.020789 |
Le life sciences mostrano il divario più ampio tra un modello che lavora a memoria e uno che legge la norma in vigore, esattamente il punto in cui un data layer mantenuto si guadagna il suo posto.
Come abbiamo misurato
- Il set completo di modelli di Anthropic, OpenAI, Google e xAI.
- Centinaia di compiti complessi life sciences sulle norme medtech ISO e IEC (qualità, rischio, clinica, software, biocompatibilità), sulle linee guida ICH e sulle guide IMDRF, ciascuno legato alla sua fonte ufficiale e all'edizione corrente.
- Due condizioni: il modello da solo, e collegato a Obsidian.
- Un giudice in cieco valuta ogni risposta; le affermazioni fondate provengono da una verifica separata, affermazione per affermazione, rispetto alla fonte ufficiale.
Metta l'edizione giusta di ogni norma dietro la sua IA
Colleghi Obsidian all'IA che già usa e ogni risposta sulle norme tornerà con l'edizione corrente e l'ente emittente. Piano gratuito, configurazione in due minuti.
Scopra il data layer ObsidianChe cosa significa
Per i team regolatori e qualità dei dispositivi medici e del farmaceutico, l'assistente che già usa, alimentato con dati verificati, smette di citare edizioni ritirate e inizia a rispondere con la norma e l'edizione realmente in vigore, così un revisore può farvi affidamento in una submission. Il contesto è qui: i dati regolatori tier-0 e l'intelligence regolatoria agentica. I risultati completi su tutti i settori sono nel benchmark dell'IA regolatoria. Per provarlo sulle sue domande, colleghi il data layer regolatorio Obsidian.