Claude è uno dei modelli con le capacità di ragionamento più solide che si possano mettere davanti a un problema. Fategli però una domanda normativa e la risposta scorrevole spesso non supera una verifica dei fatti: un numero di regolamento inesistente, un'edizione superata, una bozza citata come se fosse vincolante. La conclusione naturale è che nemmeno un modello così capace possa essere affidabile in materia normativa.
È la conclusione sbagliata. Il ragionamento di Claude non è mai stato il problema: lo era la sua portata. Un modello generalista risponde a partire da un'istantanea congelata del web, senza alcun modo di aprire il testo reale di un regolamento o di sapere se oggi è in vigore. Date a Claude quel testo, e smette di tirare a indovinare.
Quel testo è ciò che fornisce Obsidian. Abbiamo sottoposto i modelli Claude, Haiku 4.5, Sonnet 4.6 e Opus 4.8, a centinaia di compiti normativi complessi tra ESG, chimica e scienze della vita, ognuno affrontato dal modello da solo e poi connesso a Obsidian.
Claude è impreciso nel lavoro normativo
Da soli, i modelli Claude hanno raggiunto una media di 59 su 100. Connessi a Obsidian, la media sale a 94. La combinazione migliore, opus-4.8, ha raggiunto 95.2. I modelli non sono cambiati tra questi due numeri. Sono cambiati solo i dati che avevano davanti.
Il Claude più leggero è già una dimostrazione da solo. haiku-4.5, a $2.0 per milione di token, sale da 44 a 94 una volta connesso, entrando nella fascia di modelli che costano molte volte di più. Non vi serve il Claude più grande per essere accurati sulla normativa; vi serve mettergli davanti i dati, e la tabella per modello mostra la stessa convergenza su tutti e tre.
Claude non sa indicarvi la fonte ufficiale
L'accuratezza è solo metà della questione. Connessa a Obsidian, una risposta di Claude mostra il proprio lavoro: lo strumento, il riferimento e l'edizione esatti, lo status giuridico e un link diretto al documento ufficiale, spesso il PDF di origine. Da solo, Claude scrive una citazione scorrevole che dovete poi confermare. Connesso, la citazione arriva già verificabile, che è la parte di cui un team regolatorio ha davvero bisogno.
Una risposta con la fonte tier-0 allegata è una risposta che potete inoltrare a un auditor senza ricontrollarla. È la differenza tra una bozza immaginata da un modello e un obbligo su cui potete agire.
Claude ha allucinazioni
Abbiamo scomposto ogni risposta di Claude nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di affermazioni ancorate riportati sopra è il tipo pericoloso di errore che scompare. Claude scrive risposte ricche ed elaborate e aggiunge contesto oltre la fonte in senso stretto, ed è per questo che il dato connesso non è ancora più alto; ciò che sparisce è l'affermazione sicura di sé senza nulla dietro.
I dati completi, per i puristi
Ogni modello, in entrambe le condizioni. "Da solo" è il modello senza livello dati; "con Obsidian" è lo stesso modello connesso. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice in cieco rispetto a una verità di riferimento verificata da persone. Le "affermazioni ancorate" sono la quota delle affermazioni fattuali atomiche della risposta riconducibili alla fonte ufficiale, da solo rispetto a con Obsidian.
| # | Modello | Fascia | Acc. da solo | Acc. + Obsidian | Incremento | Cita la fonte | Status corretto | Affermazioni ancorate (da solo → +Obs) | Latenza | Velocità | Prezzo /1M | Costo / domanda |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | opus-4.8 | avanzata | 67.6 | 95.2 | +27.6 | 96% | 100% | 24% → 89% | 4.86s | 69 tok/s | $10.0 | $0.024427 |
| 2 | sonnet-4.6 | media | 67.1 | 94.3 | +27.2 | 96% | 100% | 24% → 81% | 7.89s | 46 tok/s | $6.0 | $0.012284 |
| 3 | haiku-4.5 | leggera | 43.6 | 93.5 | +49.9 | 96% | 100% | 21% → 88% | 2.85s | 75 tok/s | $2.0 | $0.003326 |
Aggregando tutte le risposte, il Claude più leggero connesso a Obsidian supera il Claude di frontiera che risponde da solo, a una frazione del costo.
Come abbiamo misurato
- Tre modelli Claude: Haiku 4.5, Sonnet 4.6, Opus 4.8.
- Centinaia di compiti normativi complessi tra ESG (CSRD, gli ESRS, la tassonomia UE, SFDR), chimica (REACH, il GHS dell'ONU, le convenzioni globali) e scienze della vita (le norme medtech ISO e IEC, ICH, IMDRF), ognuno legato alla sua fonte ufficiale.
- Due condizioni: Claude da solo, e Claude connesso a Obsidian.
- Un giudice in cieco valuta ogni risposta rispetto a una verità di riferimento verificata da persone; le affermazioni ancorate provengono da una verifica separata, affermazione per affermazione.
Fate di Claude il modello della prima riga
Connettete Obsidian a Claude e ogni risposta normativa torna con la sua fonte ufficiale, la data e lo status giuridico. Piano gratuito, configurazione in due minuti.
Scoprite il livello dati ObsidianChe cosa significa
Il Claude che già usate, alimentato con dati normativi verificati, risponde con la precisione di uno specialista e le prove di un auditor. Anche il contesto è qui: perché l'IA ha allucinazioni sulle domande normative, che cosa sono i dati normativi tier-0 e l'idea di intelligence normativa agentica. I risultati completi su tutti i provider sono nel benchmark dell'IA normativa. Per provarlo sulle vostre domande, connettete il livello dati normativo Obsidian.