Se vi occupate di conformità delle sostanze chimiche, la difficoltà è che nulla resta fermo. Le sostanze entrano nelle liste di restrizione e nella candidate list, le classificazioni di pericolo vengono riviste, la dinamica mondiale sui PFAS continua a spostarsi e le convenzioni internazionali aggiungono voci a ogni riunione. Chiedete a un'AI se una sostanza è soggetta a restrizione ai sensi di REACH, quale sia la sua attuale classificazione GHS o se un inquinante persistente sia stato iscritto, e la risposta arriva sicura di sé e spesso in ritardo di una o due revisioni, citando talvolta una regola che non esiste.
I modelli ragionano perfettamente sulle regole applicabili alle sostanze chimiche. Ciò che manca loro è l'accesso: un modello generalista non può aprire la lista di restrizione attuale né l'ultimo testo di una convenzione, e non ha modo di sapere quale revisione sia in vigore. Dategli quel testo, e smette di indovinare.
Quel testo è ciò che fornisce Obsidian, con una copertura approfondita dei regimi mondiali delle sostanze chimiche. Abbiamo sottoposto i modelli a centinaia di compiti complessi in materia di sostanze chimiche su REACH, CLP, il GHS dell'ONU e le convenzioni di Stoccolma, Basilea, Rotterdam e Minamata, ciascuno affrontato dal modello da solo e poi connesso a Obsidian.
L'AI è imprecisa sulla regolamentazione delle sostanze chimiche
Da soli, i modelli hanno registrato una media di 53 su 100. Connessi a Obsidian, la media sale a 95. La migliore combinazione, gpt-5.4-mini, ha raggiunto 95.8. I modelli non sono cambiati tra questi due numeri. È cambiato solo il dato che avevano davanti.
Il lavoro sulle sostanze chimiche punisce la conoscenza obsoleta più di quasi ogni altro campo: uno stato di restrizione, una classificazione di pericolo o un'iscrizione cambiati nell'ultimo trimestre, e una risposta costruita sulla revisione dell'anno scorso è semplicemente sbagliata. È qui che il livello dati si guadagna il suo posto. gemini-3.1-flash-lite, a $0.175 per milione di token, sale da 56 a 95 una volta connesso, nella fascia di modelli che costano molte volte di più. Un modello leggero connesso a Obsidian ha battuto un modello di frontiera che rispondeva da solo in 16 confronti diretti su 16 sul set delle sostanze chimiche.
L'AI non sa indicarvi la fonte ufficiale in materia di sostanze chimiche
Per un team di product stewardship o di affari regolatori la citazione è il risultato atteso. Connessa a Obsidian, una risposta arriva con il regime, la restrizione o l'iscrizione attuale, la revisione in vigore e un link diretto al testo ufficiale. Da sola, ottenete un riferimento plausibile da verificare voi stessi, su domande in cui lo stato e la revisione sono l'intera risposta, e dove una valutazione errata può bloccare un prodotto.
Una risposta con la fonte tier-0 allegata è una risposta che potete inoltrare a un auditor senza ricontrollarla. Questa è la differenza tra una bozza immaginata da un modello e un obbligo su cui potete agire.
L'AI ha le allucinazioni
Abbiamo scomposto ogni risposta nelle sue singole affermazioni fattuali e verificato ciascuna rispetto alla fonte ufficiale. Il divario tra i due numeri di affermazioni fondate riportati sopra è, per una restrizione di sostanza, una classificazione o un'iscrizione, la differenza tra una risposta su cui potete agire e una da ricontrollare riga per riga. Il resto non fondato è contesto aggiunto, non riferimenti inventati.
I dati completi, per i puristi
Ogni modello, entrambe le condizioni. "Da solo" è il modello senza livello dati; "con Obsidian" è lo stesso modello connesso. L'accuratezza è un punteggio da 0 a 100 assegnato da un giudice cieco rispetto a una ground truth verificata da esseri umani. Le "affermazioni fondate" sono la quota delle affermazioni fattuali atomiche della risposta riconducibili alla fonte ufficiale, da solo rispetto a con Obsidian.
| # | Modello | Provider | Fascia | Acc. da solo | Acc. + Obsidian | Guadagno | Cita la fonte | Stato corretto | Affermazioni fondate (da solo → +Obs) | Latenza | Velocità | Prezzo /1M | Costo / domanda |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.4-mini | OpenAI | intermedio | 63.0 | 95.8 | +32.8 | 96% | 100% | 35% → 97% | 1.14s | 83 tok/s | $0.7 | $0.000486 |
| 2 | grok-4.3 | xAI | intermedio | 53.1 | 95.8 | +42.7 | 97% | 100% | 29% → 94% | 3.22s | 120 tok/s | $1.562 | $0.002179 |
| 3 | gpt-5.4-nano | OpenAI | leggero | 38.3 | 95.5 | +57.2 | 95% | 100% | 22% → 96% | 1.21s | 84 tok/s | $0.463 | $0.000302 |
| 4 | opus-4.8 | Anthropic | avanzato | 58.4 | 95.5 | +37.1 | 97% | 100% | 20% → 85% | 3.7s | 71 tok/s | $10.0 | $0.013676 |
| 5 | gemini-3.1-flash-lite | leggero | 56.3 | 95.4 | +39.1 | 93% | 100% | 22% → 98% | 0.74s | 118 tok/s | $0.175 | $0.000125 | |
| 6 | gpt-5.5 | OpenAI | avanzato | 40.7 | 95.4 | +54.7 | 95% | 100% | 46% → 96% | 4.76s | 33 tok/s | $11.25 | $0.009351 |
| 7 | grok-4.20-reasoning | xAI | avanzato | 56.4 | 95.0 | +38.6 | 96% | 100% | 24% → 92% | 2.49s | 225 tok/s | $6.0 | $0.012179 |
| 8 | sonnet-4.6 | Anthropic | intermedio | 59.1 | 95.0 | +35.9 | 96% | 100% | 21% → 83% | 6.2s | 50 tok/s | $6.0 | $0.007406 |
| 9 | grok-3-mini | xAI | leggero | 49.7 | 94.8 | +45.1 | 95% | 98% | 32% → 91% | 3.19s | 118 tok/s | $0.35 | $0.000479 |
| 10 | gemini-3.5-flash | intermedio | 60.0 | 94.4 | +34.4 | 99% | 100% | 22% → 94% | 2.9s | 178 tok/s | $3.375 | $0.006279 | |
| 11 | gemini-3.1-pro | avanzato | 61.1 | 93.9 | +32.8 | 95% | 100% | 23% → 96% | 5.79s | 111 tok/s | $6.0 | $0.013897 | |
| 12 | haiku-4.5 | Anthropic | leggero | 41.5 | 93.6 | +52.1 | 95% | 100% | 18% → 88% | 1.97s | 87 tok/s | $2.0 | $0.001841 |
In un settore che punisce la conoscenza obsoleta, l'accuratezza da connessi e il salto delle affermazioni fondate sono i test che contano, e il livello dati li supera entrambi.
Come lo abbiamo misurato
- La gamma completa di modelli di Anthropic, OpenAI, Google e xAI.
- Centinaia di compiti complessi sulle sostanze chimiche su REACH, CLP, il GHS dell'ONU, le convenzioni di Stoccolma, Basilea, Rotterdam e Minamata e il Global Framework on Chemicals, ciascuno legato alla sua fonte ufficiale e alla revisione in vigore.
- Due condizioni: il modello da solo, e connesso a Obsidian.
- Un giudice cieco valuta ogni risposta; le affermazioni fondate provengono da una verifica separata, affermazione per affermazione, rispetto alla fonte ufficiale.
Mettete la fonte ufficiale sulle sostanze chimiche dietro ogni risposta
Connettete Obsidian all'AI che già usate e ogni risposta su REACH, GHS o le convenzioni torna con il regime, la restrizione attuale e la revisione in vigore. Livello gratuito, configurazione in due minuti.
Scoprite il livello dati ObsidianChe cosa significa
Per i team chimica e materiali avanzati che seguono restrizioni, iscrizioni e classificazioni tra le giurisdizioni, l'assistente che già usate, alimentato da dati verificati, risponde con la fonte ufficiale allegata, così uno specialista regolatorio può agire sulla risposta invece di ricontrollarla. Il contesto è anche qui: i dati normativi tier-0 e l'intelligence normativa agentica. I risultati completi multisettoriali sono nel benchmark AI normativo. Per provarlo sulle vostre domande, connettete il livello dati normativo Obsidian.