Se lavorate nella sostenibilità e nel reporting ESG, il terreno continua a muoversi sotto i vostri piedi. La CSRD ha portato un'ondata di imprese nel reporting obbligatorio, poi la semplificazione Omnibus ha cambiato chi rientra nell'ambito di applicazione e quando, mentre la Tassonomia UE, la SFDR, la CSDDD e il CBAM hanno ciascuno le proprie soglie e scadenze. Chiedete a un assistente AI di confermare uno di questi punti e la risposta arriva fluente e spesso superata: una regola di ambito precedente alla semplificazione, una scadenza nel frattempo spostata, una misura citata come vincolante quando è ancora una proposta.

I modelli che già usate ragionano perfettamente sulle regole ESG. Ciò che manca loro è l'accesso: un modello generalista non può aprire il testo consolidato vigente né sapere che cosa ha cambiato l'ultimo emendamento. Dategli quel testo, e smette di tirare a indovinare.

Quel testo è ciò che fornisce Obsidian, con una copertura profonda e aggiornata del diritto europeo della sostenibilità. Abbiamo sottoposto i modelli a centinaia di compiti ESG complessi su CSRD, ESRS, Tassonomia UE, SFDR, CSDDD e CBAM, ciascuno affrontato da soli e collegati a Obsidian.

72 → 90
Accuratezza regolamentare media, gli stessi modelli da soli vs collegati (su 100)
30% → 89%
Quota delle affermazioni fattuali di una risposta ancorate alla fonte ufficiale
93%
Risposte collegate che hanno citato la fonte ufficiale corretta

L'AI è imprecisa sulla normativa ESG

Da soli, i modelli hanno ottenuto in media 72 su 100. Collegateli a Obsidian e la media sale a 90. I modelli non sono cambiati tra questi due numeri. Sono cambiati solo i dati davanti a loro.

Accuratezza regolamentare rispetto al prezzo per 1M di token
L'accuratezza regolamentare rispetto al prezzo. Collegato a Obsidian (i gettoni più larghi), ogni modello converge verso l'alto.
Accuratezza regolamentare rispetto al tempo medio di risposta in secondi
Lo stesso rispetto al tempo di risposta.

L'ESG è il dominio in cui i modelli generalisti sembrano più solidi da soli, perché questi quadri normativi sono discussi ovunque, ed è esattamente ciò che rende il risultato significativo: anche qui il modello sbaglia l'ambito attuale, le soglie post-semplificazione e il fatto che una misura sia davvero in vigore. Il livello di dati colma quel divario. gemini-3.1-flash-lite, a $0.175 per milione di token, sale da 70 a 95 una volta collegato, il punteggio più alto della tabella, davanti a ogni modello che costa molte volte di più. Un modello di fascia leggera collegato a Obsidian ha battuto un modello di frontiera che rispondeva da solo in 16 confronti diretti su 16 sul set ESG.

L'AI non sa indicarvi la fonte ESG ufficiale

Per un team di sostenibilità la citazione è il deliverable. Collegata a Obsidian, una risposta arriva con lo strumento ufficiale allegato, la direttiva o il regolamento dietro CSRD, Tassonomia, SFDR o CSDDD, con il suo stato attuale e un link diretto. Da soli, ottenete un riferimento plausibile che dovete poi rintracciare e datare voi stessi, in un campo in cui la versione e lo stato di vigenza sono l'intera risposta.

Una risposta con la fonte tier-0 allegata è una risposta che potete inoltrare a un revisore senza ricontrollarla. È la differenza tra una bozza immaginata da un modello e un obbligo su cui potete agire.

L'AI ha le allucinazioni

Abbiamo scomposto ogni risposta nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di affermazioni ancorate riportati sopra è ciò che conta in un campo in cui una scadenza sbagliata o una bozza scambiata per legge vincolante diventa un errore in un report pubblicato. Ciò che scompare è l'affermazione sicura senza nulla dietro; il resto non ancorato è contesto aggiunto, non riferimenti inventati.

I dati completi, per i puristi

Ogni modello, in entrambe le condizioni. "Da solo" è il modello senza livello di dati; "con Obsidian" è lo stesso modello collegato. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice cieco rispetto a una verità di riferimento verificata da esseri umani. "Affermazioni ancorate" è la quota delle affermazioni fattuali atomiche della risposta riconducibili alla fonte ufficiale, da solo e poi con Obsidian.

#ModelloFornitoreFasciaAcc. da soloAcc. + ObsidianGuadagnoCita la fonteStato correttoAffermazioni ancorate (da solo → +Obs)LatenzaVelocitàPrezzo /1MCosto / domanda
1gemini-3.1-flash-liteGoogleleggero69.594.6+25.196%100%23% → 98%0.86s127 tok/s$0.175$0.000188
2gpt-5.4-nanoOpenAIleggero56.893.7+36.990%98%41% → 93%1.59s75 tok/s$0.463$0.000408
3gpt-5.4-miniOpenAIintermedio84.493.6+9.294%100%41% → 99%1.33s84 tok/s$0.7$0.000689
4opus-4.8Anthropicavanzato81.193.3+12.296%100%24% → 87%5.94s65 tok/s$10.0$0.019428
5sonnet-4.6Anthropicintermedio81.092.6+11.694%100%24% → 73%7.83s49 tok/s$6.0$0.009912
6haiku-4.5Anthropicleggero58.990.3+31.493%100%23% → 87%3.01s77 tok/s$2.0$0.002546
7gpt-5.5OpenAIavanzato74.289.7+15.595%100%45% → 93%5.2s44 tok/s$11.25$0.014132
8grok-3-minixAIleggero69.087.0+18.096%100%36% → 88%3.27s126 tok/s$0.35$0.000617
9grok-4.20-reasoningxAIavanzato77.786.8+9.191%95%30% → 88%3.04s214 tok/s$6.0$0.015101
10grok-4.3xAIintermedio74.086.4+12.488%95%36% → 88%3.2s126 tok/s$1.562$0.002703
11gemini-3.1-proGoogleavanzato69.386.0+16.788%95%31% → 96%6.21s107 tok/s$6.0$0.016565
12gemini-3.5-flashGoogleintermedio67.983.7+15.890%95%29% → 92%3.41s180 tok/s$3.375$0.0089

Sull'ESG i modelli ottengono già buoni punteggi dal solo dibattito pubblico, il che rende l'accuratezza da collegati e il balzo delle affermazioni ancorate i test più difficili, e il livello di dati li supera entrambi.

Come abbiamo misurato

  • Il set completo di modelli di Anthropic, OpenAI, Google e xAI.
  • Centinaia di compiti ESG complessi su CSRD, ESRS, Tassonomia UE, SFDR, CSDDD e CBAM, ciascuno legato al suo riferimento ufficiale e allo stato attuale. I compiti fuori dall'attuale copertura ESG di Obsidian sono esclusi, così il punteggio riflette la qualità delle risposte.
  • Due condizioni: il modello da solo, e collegato a Obsidian.
  • Un giudice cieco valuta ogni risposta; le affermazioni ancorate provengono da una verifica separata, affermazione per affermazione, rispetto alla fonte ufficiale.

Mettete la fonte ESG ufficiale dietro ogni risposta

Collegate Obsidian all'AI che già usate e ogni risposta su CSRD, Tassonomia o SFDR torna con il suo strumento ufficiale, la data e lo stato attuale. Livello gratuito, configurazione in due minuti.

Scoprite il livello di dati Obsidian

Che cosa significa

Non vi serve un modello più costoso, e non dovete accettare supposizioni su un corpus normativo che si muove ogni trimestre. L'assistente che il vostro team già usa, alimentato con dati ESG verificati, risponde con lo strumento vigente allegato, così un responsabile sostenibilità può agire sulla risposta invece di ricontrollarla. Il contesto è anche qui: l'intelligence regolamentare ESG e CSRD e i dati regolamentari tier-0. I risultati completi cross-industry sono nel benchmark dell'AI regolamentare. Per provarlo sulle vostre domande, collegate il livello di dati regolamentari Obsidian.