Ponete una domanda regolatoria a un'IA: la risposta arriva rapida, fluida e sicura di sé. Poi la verificate: un numero di regolamento che non esiste, un'edizione indietro di due versioni, una regola citata come vincolante quando è ancora una bozza. Dopo qualche esperienza del genere, il verdetto sembra ovvio: l'IA non è pronta per il lavoro regolatorio.

È il verdetto sbagliato. I modelli che tutti usano già sono perfettamente capaci di ragionamento regolatorio. Ciò che manca loro non è l'intelligenza, è l'accesso: un modello generalista risponde a partire da un'istantanea congelata del web aperto, senza alcun modo di aprire il testo reale di un regolamento né di sapere se oggi è in vigore. Dategli quel testo, e smette di tirare a indovinare.

Quel testo è ciò che fornisce Obsidian: un layer di dati regolatori verificati, di livello tier-0, costruito per essere interrogato da un'IA. Per misurare che cosa cambia, abbiamo sottoposto 12 modelli di largo uso a centinaia di compiti regolatori complessi e precisi su ESG, chimica e scienze della vita, ciascuno affrontato due volte. Una volta da solo. Una volta connesso a Obsidian. I tre numeri qui sotto raccontano tutta la storia.

58 → 94
Accuratezza regolatoria media, gli stessi modelli da soli e poi connessi (su 100)
28% → 92%
Quota delle affermazioni fattuali di una risposta fondate sulla fonte ufficiale
95%
Risposte connesse che hanno citato la fonte ufficiale corretta

L'IA è imprecisa per il lavoro regolatorio

Da soli, i dodici modelli hanno ottenuto in media 58 su 100. Connetteteli a Obsidian e la media sale a 94. I modelli non sono cambiati tra questi due numeri. Sono cambiati solo i dati messi davanti a loro. Il guadagno regge in ogni dominio: la chimica passa da 53 a 95, le scienze della vita da 52 a 96, l'ESG da 72 a 90. Non state più comprando l'accuratezza dal modello; gliela state consegnando con i dati.

Accuratezza regolatoria rispetto al prezzo per 1M di token
L'accuratezza regolatoria rispetto al prezzo. Connesso a Obsidian (le monete più larghe), ogni modello converge verso l'alto.
Accuratezza regolatoria rispetto al tempo di risposta medio in secondi
La stessa lettura rispetto al tempo di risposta.

Il segnale più chiaro sta in fondo all'asse dei prezzi. gemini-3.1-flash-lite, a $0.175 per milione di token, sale da 60 a 96 una volta connesso: il punteggio più alto della tabella, davanti a modelli che costano molte volte di più. Un modello di fascia leggera connesso a Obsidian ha battuto un modello di frontiera che rispondeva da solo in 16 confronti diretti su 16. Nel lavoro regolatorio, l'accesso conta più della potenza pura, e l'accesso è esattamente ciò che un layer di dati aggiunge.

L'IA non sa indicarvi la fonte ufficiale

L'accuratezza è solo metà della questione. Una risposta connessa non si limita a centrare la regola giusta, mostra le sue prove: lo strumento, il suo riferimento e la sua edizione esatti, lo stato giuridico e un link diretto al documento ufficiale, spesso il PDF di origine. Un modello nudo vi dà una citazione dall'aria plausibile che dovete poi verificare voi stessi, ammesso che esista. La risposta connessa arriva già verificabile, ed è esattamente ciò di cui un team compliance ha davvero bisogno.

Una risposta con la fonte tier-0 allegata è una risposta che potete inoltrare a un auditor senza ricontrollarla. È la differenza tra una bozza immaginata da un modello e un obbligo su cui potete agire.

L'IA ha le allucinazioni

Per misurarlo con precisione abbiamo scomposto ogni risposta nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale, invece di fidarci di un unico verdetto binario. Il divario tra i due numeri di fondatezza qui sopra è l'errore più pericoloso, ora eliminato: l'affermazione sicura di sé che non poggia su nulla. La quota non fondata rimanente non è fatta di citazioni inventate, è contesto aggiuntivo che il modello inserisce attorno alla fonte, ed è per questo che nessun modello raggiunge un 100 netto.

I dati completi, per i puristi

Ogni modello, in entrambe le condizioni. "Da solo" è il modello senza layer di dati; "con Obsidian" è lo stesso modello connesso. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice in cieco rispetto a una verità di riferimento verificata da persone. "Affermazioni fondate" è la quota delle affermazioni fattuali atomiche della risposta che risalgono alla fonte ufficiale, da solo e poi con Obsidian.

#ModelloFornitoreFasciaAcc. da soloAcc. + ObsidianGuadagnoCita la fonteStato correttoAffermazioni fondate (da solo → +Obs)LatenzaVelocitàPrezzo /1MCosto / domanda
1gemini-3.1-flash-liteGoogleleggera60.295.6+35.496%100%25% → 98%0.82s130 tok/s$0.175$0.000264
2gpt-5.4-miniOpenAIintermedia69.595.5+26.096%100%38% → 96%1.25s84 tok/s$0.7$0.000966
3gpt-5.4-nanoOpenAIleggera42.595.5+53.094%99%28% → 96%1.42s83 tok/s$0.463$0.000551
4opus-4.8Anthropicavanzata67.695.2+27.696%100%24% → 89%4.86s69 tok/s$10.0$0.024427
5gpt-5.5OpenAIavanzata49.894.4+44.696%100%44% → 96%4.89s42 tok/s$11.25$0.0167
6sonnet-4.6Anthropicintermedia67.194.3+27.296%100%24% → 81%7.89s46 tok/s$6.0$0.012284
7haiku-4.5Anthropicleggera43.693.5+49.996%100%21% → 88%2.85s75 tok/s$2.0$0.003326
8grok-3-minixAIleggera54.393.3+39.097%99%34% → 91%3.26s127 tok/s$0.35$0.000822
9grok-4.20-reasoningxAIavanzata65.093.1+28.194%99%28% → 93%2.82s222 tok/s$6.0$0.016179
10grok-4.3xAIintermedia56.493.1+36.795%99%32% → 93%3.21s126 tok/s$1.562$0.003594
11gemini-3.5-flashGoogleintermedia61.491.9+30.596%99%28% → 95%3.33s182 tok/s$3.375$0.009259
12gemini-3.1-proGoogleavanzata64.291.7+27.592%99%33% → 97%6.09s108 tok/s$6.0$0.017109

Considerando tutte le risposte insieme, un modello di fascia leggera connesso a Obsidian ha battuto ogni modello di frontiera che rispondeva da solo. La parte non fondata delle risposte connesse è contesto aggiunto oltre la fonte, non riferimenti fabbricati.

Come abbiamo misurato

  • 12 modelli di Anthropic, OpenAI, Google e xAI, distribuiti tra le fasce leggera, intermedia e avanzata.
  • Centinaia di compiti regolatori complessi e precisi su ESG (CSRD, gli ESRS, la tassonomia UE, SFDR, la CSDDD, il CBAM), chimica (REACH, CLP, il GHS dell'ONU e le convenzioni di Stoccolma, Basilea e Minamata) e scienze della vita (le norme medtech ISO e IEC, ICH, IMDRF), ciascuno legato alla sua fonte ufficiale tier-0. I compiti fuori dall'attuale perimetro di copertura di Obsidian sono messi da parte, così il punteggio misura la qualità delle risposte, non l'ampiezza della copertura.
  • Due condizioni per compito: il modello da solo, e lo stesso modello connesso a Obsidian. Nient'altro cambia.
  • Un giudice in cieco valuta ogni risposta rispetto a una verità di riferimento verificata da persone; le affermazioni fondate provengono da una verifica separata, affermazione per affermazione, rispetto alla fonte ufficiale.

Trasformate la vostra IA nel modello della prima riga

Connettete Obsidian a Claude, ChatGPT, Gemini o Cursor, e ogni risposta regolatoria torna con la sua fonte ufficiale, la data e lo stato giuridico. Piano gratuito, configurazione in due minuti.

Scoprite il layer di dati Obsidian

Che cosa significa

Se lavorate già attraverso un assistente IA, la conclusione è concreta: non vi serve un modello più costoso, e non dovete accontentarvi di congetture. L'assistente che usate oggi, alimentato con dati regolatori verificati, risponde con la precisione di uno specialista e le prove di un auditor. Anche il contesto è qui: perché l'IA ha le allucinazioni sulle domande regolatorie, che cosa sono i dati regolatori tier-0, e l'idea di intelligence regolatoria agentica. I risultati per fornitore e per settore sono approfonditi nelle edizioni Claude, ChatGPT, ESG, chimica e scienze della vita. Per metterlo alla prova sulle vostre domande, connettete il layer di dati regolatori Obsidian.