Ponete una domanda regolatoria a ChatGPT: la risposta arriva rapida e sicura di sé. Poi la verificate: un numero di regolamento che non esiste, un'edizione superata, una bozza citata come vincolante. Dopo qualche episodio del genere, il verdetto sembra ovvio: ChatGPT non è pronto per il lavoro regolatorio.
È il verdetto sbagliato. I modelli GPT che tutti usano sono perfettamente capaci di ragionamento regolatorio. Ciò che manca loro è la portata: un modello generalista risponde da un'istantanea congelata del web, senza alcun modo di aprire il testo reale di un regolamento né di sapere se oggi è in vigore. Dategli quel testo, e smette di tirare a indovinare.
Quel testo è ciò che fornisce Obsidian. Abbiamo sottoposto i modelli GPT, GPT-5.4-nano, GPT-5.4-mini e GPT-5.5, a centinaia di compiti regolatori complessi su ESG, chimica e scienze della vita, ciascuno affrontato dal modello da solo e poi connesso a Obsidian.
ChatGPT è impreciso per il lavoro regolatorio
Da soli, i tre modelli GPT hanno registrato una media di 54 su 100. Connetteteli a Obsidian e la media sale a 95. La coppia migliore, gpt-5.4-mini, ha raggiunto 95.5. I modelli non sono cambiati tra questi due numeri. Sono cambiati soltanto i dati messi davanti a loro.
La sorpresa è il più piccolo. gpt-5.4-nano, a $0.463 per milione di token, sale da 42 a 96 una volta connesso, nella fascia di modelli che costano molte volte di più. Sulla regolamentazione lo strato di dati pesa più della taglia del modello: consegnate i dati a un modello piccolo e veloce invece di comprarne uno più grande, e la tabella per modello mostra la stessa convergenza su tutti e tre.
ChatGPT non può indicarvi la fonte ufficiale
L'accuratezza è solo metà della questione. Connessa a Obsidian, una risposta GPT mostra il proprio lavoro: lo strumento, il suo riferimento e la sua edizione esatti, lo status giuridico e un link diretto al documento ufficiale, spesso il PDF di origine. Da solo, ottenete una citazione plausibile da verificare per conto vostro. Connesso, la risposta arriva già verificabile, ed è proprio questa la parte di cui un flusso di conformità ha davvero bisogno.
Una risposta con la fonte tier-0 allegata è una risposta che potete inoltrare a un auditor senza ricontrollarla. È la differenza tra una bozza immaginata da un modello e un obbligo su cui potete agire.
ChatGPT ha allucinazioni
Abbiamo scomposto ogni risposta GPT nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di ancoraggio qui sopra è il tipo di errore pericoloso che viene eliminato: l'affermazione sicura senza nulla dietro. Il resto non ancorato è contesto aggiunto attorno alla fonte, non riferimenti inventati.
I dati completi, per i puristi
Ogni modello, in entrambe le condizioni. « Da solo » è il modello senza strato di dati; « con Obsidian » è lo stesso modello connesso. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice in cieco rispetto a una verità di riferimento verificata da persone. « Affermazioni ancorate » è la quota delle affermazioni fattuali atomiche della risposta che risalgono alla fonte ufficiale, da solo e poi con Obsidian.
| # | Modello | Fascia | Acc. da solo | Acc. + Obsidian | Guadagno | Cita la fonte | Status corretto | Affermazioni ancorate (da solo → +Obs) | Latenza | Velocità | Prezzo /1M | Costo / domanda |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.4-mini | media | 69.5 | 95.5 | +26.0 | 96% | 100% | 38% → 96% | 1.25s | 84 tok/s | $0.7 | $0.000966 |
| 2 | gpt-5.4-nano | leggera | 42.5 | 95.5 | +53.0 | 94% | 99% | 28% → 96% | 1.42s | 83 tok/s | $0.463 | $0.000551 |
| 3 | gpt-5.5 | avanzata | 49.8 | 94.4 | +44.6 | 96% | 100% | 44% → 96% | 4.89s | 42 tok/s | $11.25 | $0.0167 |
Considerando tutte le risposte insieme, persino il più piccolo GPT connesso a Obsidian batte il GPT di frontiera che risponde da solo, per meno di un centesimo a domanda.
Come abbiamo misurato
- Tre modelli GPT: GPT-5.4-nano, GPT-5.4-mini, GPT-5.5.
- Centinaia di compiti regolatori complessi su ESG (la CSRD, gli ESRS, la tassonomia UE, SFDR), chimica (REACH, il GHS dell'ONU, le convenzioni globali) e scienze della vita (le norme medtech ISO e IEC, ICH, IMDRF), ciascuno collegato alla sua fonte ufficiale.
- Due condizioni: GPT da solo, e GPT connesso a Obsidian.
- Un giudice in cieco valuta ogni risposta rispetto a una verità di riferimento verificata da persone; le affermazioni ancorate provengono da una verifica separata, affermazione per affermazione.
Fate di ChatGPT il modello della prima riga
Connettete Obsidian a ChatGPT e ogni risposta regolatoria torna con la sua fonte ufficiale, la data e lo status giuridico, spesso per meno di un centesimo a domanda. Piano gratuito, configurazione in due minuti.
Scoprite lo strato di dati ObsidianChe cosa significa
Il GPT che già usate, alimentato con dati regolatori verificati, risponde con la precisione di uno specialista e le pezze d'appoggio di un auditor. Anche il contesto è qui: perché l'IA ha allucinazioni sulle domande regolatorie, che cosa sono i dati regolatori tier-0, e l'idea di intelligence regolatoria agentica. I risultati completi su tutti i fornitori sono nel benchmark dell'IA regolatoria. Per provarlo sulle vostre domande, connettete lo strato di dati regolatori Obsidian.