Se vi occupate di conformità delle sostanze chimiche, la difficoltà è che nulla resta fermo. Le sostanze entrano nelle liste di restrizione e nella candidate list, le classificazioni di pericolo vengono riviste, la dinamica mondiale sui PFAS continua a spostarsi e le convenzioni internazionali aggiungono voci a ogni riunione. Chiedete a un'AI se una sostanza è soggetta a restrizione ai sensi di REACH, quale sia la sua attuale classificazione GHS o se un inquinante persistente sia stato iscritto, e la risposta arriva sicura di sé e spesso in ritardo di una o due revisioni, citando talvolta una regola che non esiste.

I modelli ragionano perfettamente sulle regole applicabili alle sostanze chimiche. Ciò che manca loro è l'accesso: un modello generalista non può aprire la lista di restrizione attuale né l'ultimo testo di una convenzione, e non ha modo di sapere quale revisione sia in vigore. Dategli quel testo, e smette di indovinare.

Quel testo è ciò che fornisce Obsidian, con una copertura approfondita dei regimi mondiali delle sostanze chimiche. Abbiamo sottoposto i modelli a centinaia di compiti complessi in materia di sostanze chimiche su REACH, CLP, il GHS dell'ONU e le convenzioni di Stoccolma, Basilea, Rotterdam e Minamata, ciascuno affrontato dal modello da solo e poi connesso a Obsidian.

53 → 95
Accuratezza normativa media, gli stessi modelli da soli vs connessi (su 100)
24% → 91%
Quota delle affermazioni fattuali di una risposta fondate sulla fonte ufficiale
96%
Risposte connesse che hanno citato la fonte ufficiale corretta

L'AI è imprecisa sulla regolamentazione delle sostanze chimiche

Da soli, i modelli hanno registrato una media di 53 su 100. Connessi a Obsidian, la media sale a 95. La migliore combinazione, gpt-5.4-mini, ha raggiunto 95.8. I modelli non sono cambiati tra questi due numeri. È cambiato solo il dato che avevano davanti.

Accuratezza normativa rispetto al prezzo per 1M di token
Accuratezza normativa rispetto al prezzo. Connesso a Obsidian (le monete più larghe), ogni modello converge verso l'alto.
Accuratezza normativa rispetto al tempo medio di risposta in secondi
Lo stesso rispetto al tempo di risposta.

Il lavoro sulle sostanze chimiche punisce la conoscenza obsoleta più di quasi ogni altro campo: uno stato di restrizione, una classificazione di pericolo o un'iscrizione cambiati nell'ultimo trimestre, e una risposta costruita sulla revisione dell'anno scorso è semplicemente sbagliata. È qui che il livello dati si guadagna il suo posto. gemini-3.1-flash-lite, a $0.175 per milione di token, sale da 56 a 95 una volta connesso, nella fascia di modelli che costano molte volte di più. Un modello leggero connesso a Obsidian ha battuto un modello di frontiera che rispondeva da solo in 16 confronti diretti su 16 sul set delle sostanze chimiche.

L'AI non sa indicarvi la fonte ufficiale in materia di sostanze chimiche

Per un team di product stewardship o di affari regolatori la citazione è il risultato atteso. Connessa a Obsidian, una risposta arriva con il regime, la restrizione o l'iscrizione attuale, la revisione in vigore e un link diretto al testo ufficiale. Da sola, ottenete un riferimento plausibile da verificare voi stessi, su domande in cui lo stato e la revisione sono l'intera risposta, e dove una valutazione errata può bloccare un prodotto.

Una risposta con la fonte tier-0 allegata è una risposta che potete inoltrare a un auditor senza ricontrollarla. Questa è la differenza tra una bozza immaginata da un modello e un obbligo su cui potete agire.

L'AI ha le allucinazioni

Abbiamo scomposto ogni risposta nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di affermazioni fondate riportati sopra è, per una restrizione di sostanza, una classificazione o un'iscrizione, la differenza tra una risposta su cui potete agire e una da ricontrollare riga per riga. Il resto non fondato è contesto aggiunto, non riferimenti inventati.

I dati completi, per i puristi

Ogni modello, entrambe le condizioni. "Da solo" è il modello senza livello dati; "con Obsidian" è lo stesso modello connesso. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice cieco rispetto a una ground truth verificata da esseri umani. Le "affermazioni fondate" sono la quota delle affermazioni fattuali atomiche della risposta riconducibili alla fonte ufficiale, da solo rispetto a con Obsidian.

#ModelloProviderFasciaAcc. da soloAcc. + ObsidianGuadagnoCita la fonteStato correttoAffermazioni fondate (da solo → +Obs)LatenzaVelocitàPrezzo /1MCosto / domanda
1gpt-5.4-miniOpenAIintermedio63.095.8+32.896%100%35% → 97%1.14s83 tok/s$0.7$0.000486
2grok-4.3xAIintermedio53.195.8+42.797%100%29% → 94%3.22s120 tok/s$1.562$0.002179
3gpt-5.4-nanoOpenAIleggero38.395.5+57.295%100%22% → 96%1.21s84 tok/s$0.463$0.000302
4opus-4.8Anthropicavanzato58.495.5+37.197%100%20% → 85%3.7s71 tok/s$10.0$0.013676
5gemini-3.1-flash-liteGoogleleggero56.395.4+39.193%100%22% → 98%0.74s118 tok/s$0.175$0.000125
6gpt-5.5OpenAIavanzato40.795.4+54.795%100%46% → 96%4.76s33 tok/s$11.25$0.009351
7grok-4.20-reasoningxAIavanzato56.495.0+38.696%100%24% → 92%2.49s225 tok/s$6.0$0.012179
8sonnet-4.6Anthropicintermedio59.195.0+35.996%100%21% → 83%6.2s50 tok/s$6.0$0.007406
9grok-3-minixAIleggero49.794.8+45.195%98%32% → 91%3.19s118 tok/s$0.35$0.000479
10gemini-3.5-flashGoogleintermedio60.094.4+34.499%100%22% → 94%2.9s178 tok/s$3.375$0.006279
11gemini-3.1-proGoogleavanzato61.193.9+32.895%100%23% → 96%5.79s111 tok/s$6.0$0.013897
12haiku-4.5Anthropicleggero41.593.6+52.195%100%18% → 88%1.97s87 tok/s$2.0$0.001841

In un settore che punisce la conoscenza obsoleta, l'accuratezza da connessi e il salto delle affermazioni fondate sono i test che contano, e il livello dati li supera entrambi.

Come lo abbiamo misurato

  • La gamma completa di modelli di Anthropic, OpenAI, Google e xAI.
  • Centinaia di compiti complessi sulle sostanze chimiche su REACH, CLP, il GHS dell'ONU, le convenzioni di Stoccolma, Basilea, Rotterdam e Minamata e il Global Framework on Chemicals, ciascuno legato alla sua fonte ufficiale e alla revisione in vigore.
  • Due condizioni: il modello da solo, e connesso a Obsidian.
  • Un giudice cieco valuta ogni risposta; le affermazioni fondate provengono da una verifica separata, affermazione per affermazione, rispetto alla fonte ufficiale.

Mettete la fonte ufficiale sulle sostanze chimiche dietro ogni risposta

Connettete Obsidian all'AI che già usate e ogni risposta su REACH, GHS o le convenzioni torna con il regime, la restrizione attuale e la revisione in vigore. Livello gratuito, configurazione in due minuti.

Scoprite il livello dati Obsidian

Che cosa significa

Per i team chimica e materiali avanzati che seguono restrizioni, iscrizioni e classificazioni tra le giurisdizioni, l'assistente che già usate, alimentato da dati verificati, risponde con la fonte ufficiale allegata, così uno specialista regolatorio può agire sulla risposta invece di ricontrollarla. Il contesto è anche qui: i dati normativi tier-0 e l'intelligence normativa agentica. I risultati completi multisettoriali sono nel benchmark AI normativo. Per provarlo sulle vostre domande, connettete il livello dati normativo Obsidian.