Claude è uno dei modelli con le capacità di ragionamento più solide che si possano mettere davanti a un problema. Fategli però una domanda normativa e la risposta scorrevole spesso non supera una verifica dei fatti: un numero di regolamento inesistente, un'edizione superata, una bozza citata come se fosse vincolante. La conclusione naturale è che nemmeno un modello così capace possa essere affidabile in materia normativa.

È la conclusione sbagliata. Il ragionamento di Claude non è mai stato il problema: lo era la sua portata. Un modello generalista risponde a partire da un'istantanea congelata del web, senza alcun modo di aprire il testo reale di un regolamento o di sapere se oggi è in vigore. Date a Claude quel testo, e smette di tirare a indovinare.

Quel testo è ciò che fornisce Obsidian. Abbiamo sottoposto i modelli Claude, Haiku 4.5, Sonnet 4.6 e Opus 4.8, a centinaia di compiti normativi complessi tra ESG, chimica e scienze della vita, ognuno affrontato dal modello da solo e poi connesso a Obsidian.

59 → 94
Accuratezza normativa media, gli stessi modelli da soli vs connessi (su 100)
23% → 86%
Quota delle affermazioni fattuali di una risposta ancorate alla fonte ufficiale
96%
Risposte connesse che hanno citato la fonte ufficiale corretta

Claude è impreciso nel lavoro normativo

Da soli, i modelli Claude hanno raggiunto una media di 59 su 100. Connessi a Obsidian, la media sale a 94. La combinazione migliore, opus-4.8, ha raggiunto 95.2. I modelli non sono cambiati tra questi due numeri. Sono cambiati solo i dati che avevano davanti.

Accuratezza normativa rispetto al prezzo per 1M di token
L'accuratezza normativa rispetto al prezzo. Connesso a Obsidian (le monete più larghe), ogni modello converge verso l'alto.
Accuratezza normativa rispetto al tempo medio di risposta in secondi
Lo stesso rispetto al tempo di risposta.

Il Claude più leggero è già una dimostrazione da solo. haiku-4.5, a $2.0 per milione di token, sale da 44 a 94 una volta connesso, entrando nella fascia di modelli che costano molte volte di più. Non vi serve il Claude più grande per essere accurati sulla normativa; vi serve mettergli davanti i dati, e la tabella per modello mostra la stessa convergenza su tutti e tre.

Claude non sa indicarvi la fonte ufficiale

L'accuratezza è solo metà della questione. Connessa a Obsidian, una risposta di Claude mostra il proprio lavoro: lo strumento, il riferimento e l'edizione esatti, lo status giuridico e un link diretto al documento ufficiale, spesso il PDF di origine. Da solo, Claude scrive una citazione scorrevole che dovete poi confermare. Connesso, la citazione arriva già verificabile, che è la parte di cui un team regolatorio ha davvero bisogno.

Una risposta con la fonte tier-0 allegata è una risposta che potete inoltrare a un auditor senza ricontrollarla. È la differenza tra una bozza immaginata da un modello e un obbligo su cui potete agire.

Claude ha allucinazioni

Abbiamo scomposto ogni risposta di Claude nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di affermazioni ancorate riportati sopra è il tipo pericoloso di errore che scompare. Claude scrive risposte ricche ed elaborate e aggiunge contesto oltre la fonte in senso stretto, ed è per questo che il dato connesso non è ancora più alto; ciò che sparisce è l'affermazione sicura di sé senza nulla dietro.

I dati completi, per i puristi

Ogni modello, in entrambe le condizioni. "Da solo" è il modello senza livello dati; "con Obsidian" è lo stesso modello connesso. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice in cieco rispetto a una verità di riferimento verificata da persone. Le "affermazioni ancorate" sono la quota delle affermazioni fattuali atomiche della risposta riconducibili alla fonte ufficiale, da solo rispetto a con Obsidian.

#ModelloFasciaAcc. da soloAcc. + ObsidianIncrementoCita la fonteStatus correttoAffermazioni ancorate (da solo → +Obs)LatenzaVelocitàPrezzo /1MCosto / domanda
1opus-4.8avanzata67.695.2+27.696%100%24% → 89%4.86s69 tok/s$10.0$0.024427
2sonnet-4.6media67.194.3+27.296%100%24% → 81%7.89s46 tok/s$6.0$0.012284
3haiku-4.5leggera43.693.5+49.996%100%21% → 88%2.85s75 tok/s$2.0$0.003326

Aggregando tutte le risposte, il Claude più leggero connesso a Obsidian supera il Claude di frontiera che risponde da solo, a una frazione del costo.

Come abbiamo misurato

  • Tre modelli Claude: Haiku 4.5, Sonnet 4.6, Opus 4.8.
  • Centinaia di compiti normativi complessi tra ESG (CSRD, gli ESRS, la tassonomia UE, SFDR), chimica (REACH, il GHS dell'ONU, le convenzioni globali) e scienze della vita (le norme medtech ISO e IEC, ICH, IMDRF), ognuno legato alla sua fonte ufficiale.
  • Due condizioni: Claude da solo, e Claude connesso a Obsidian.
  • Un giudice in cieco valuta ogni risposta rispetto a una verità di riferimento verificata da persone; le affermazioni ancorate provengono da una verifica separata, affermazione per affermazione.

Fate di Claude il modello della prima riga

Connettete Obsidian a Claude e ogni risposta normativa torna con la sua fonte ufficiale, la data e lo status giuridico. Piano gratuito, configurazione in due minuti.

Scoprite il livello dati Obsidian

Che cosa significa

Il Claude che già usate, alimentato con dati normativi verificati, risponde con la precisione di uno specialista e le prove di un auditor. Anche il contesto è qui: perché l'IA ha allucinazioni sulle domande normative, che cosa sono i dati normativi tier-0 e l'idea di intelligence normativa agentica. I risultati completi su tutti i provider sono nel benchmark dell'IA normativa. Per provarlo sulle vostre domande, connettete il livello dati normativo Obsidian.