Si gestiona el cumplimiento en materia de sustancias químicas, lo difícil es que nada permanece quieto. Las sustancias entran en las listas de restricción y en la lista de candidatas, las clasificaciones de peligro se revisan, el movimiento mundial sobre los PFAS no deja de desplazarse y los convenios internacionales añaden entradas en cada reunión. Pregunte a una IA si una sustancia está restringida bajo REACH, cuál es su clasificación GHS actual o si un contaminante persistente ha sido incluido, y la respuesta llega segura de sí misma y, a menudo, con una o dos revisiones de retraso, citando a veces una norma que no existe.
Los modelos razonan perfectamente bien sobre las normas químicas. Lo que les falla es el alcance: un modelo generalista no puede abrir la lista de restricción vigente ni el último texto de un convenio, y no tiene forma de saber qué revisión está en vigor. Dele ese texto, y deja de adivinar.
Ese texto es lo que aporta Obsidian, con una cobertura profunda de los regímenes químicos mundiales. Sometimos a los modelos a cientos de tareas químicas complejas sobre REACH, CLP, el GHS de la ONU y los convenios de Estocolmo, Basilea, Róterdam y Minamata, cada una resuelta por el modelo solo y conectado a Obsidian.
La IA es imprecisa en la regulación química
Solos, los modelos promediaron 53 sobre 100. Conectados a Obsidian, la media sube a 95. La mejor combinación, gpt-5.4-mini, alcanzó 95.8. Los modelos no cambiaron entre esas dos cifras. Solo cambió el dato que tenían delante.
El trabajo químico castiga el conocimiento desactualizado más que casi cualquier otro campo: un estado de restricción, una clasificación de peligro o una inclusión que cambió el trimestre pasado, y una respuesta construida sobre la revisión del año anterior es sencillamente errónea. Ahí es donde la capa de datos se gana su lugar. gemini-3.1-flash-lite, a $0.175 por millón de tokens, sube de 56 a 95 una vez conectado, a la banda de modelos que cuestan muchas veces más. Un modelo ligero conectado a Obsidian venció a un modelo de frontera respondiendo solo en 16 de los 16 enfrentamientos directos del conjunto químico.
La IA no puede señalarle la fuente química oficial
Para un equipo de product stewardship o de asuntos regulatorios, la cita es el entregable. Conectada a Obsidian, una respuesta llega con el régimen, la restricción o inclusión vigente, la revisión en vigor y un enlace directo al texto oficial. Sola, obtiene una referencia plausible que verificar usted mismo, en preguntas donde el estado y la revisión son toda la respuesta, y donde un error puede retener un producto.
Una respuesta con la fuente tier-0 adjunta es una respuesta que puede reenviar a un auditor sin volver a comprobarla. Esa es la diferencia entre un borrador imaginado por un modelo y una obligación sobre la que puede actuar.
La IA alucina
Descompusimos cada respuesta en sus afirmaciones factuales individuales y verificamos cada una contra la fuente oficial. La brecha entre las dos cifras de afirmaciones ancladas de arriba es, para una restricción de sustancia, una clasificación o una inclusión, la diferencia entre una respuesta sobre la que puede actuar y una que revisa línea por línea. El resto no anclado es contexto añadido, no referencias inventadas.
Los datos completos, para los puristas
Todos los modelos, ambas condiciones. "Solo" es el modelo sin capa de datos; "con Obsidian" es el mismo modelo conectado. La precisión es una puntuación de 0 a 100 de un juez ciego contra una verdad de referencia verificada por humanos. Las "afirmaciones ancladas" son la proporción de las afirmaciones factuales atómicas de la respuesta que se remontan a la fuente oficial, solo frente a con Obsidian.
| # | Modelo | Proveedor | Gama | Prec. solo | Prec. + Obsidian | Mejora | Cita la fuente | Estado correcto | Afirmaciones ancladas (solo → +Obs) | Latencia | Velocidad | Precio /1M | Coste / pregunta |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.4-mini | OpenAI | intermedio | 63.0 | 95.8 | +32.8 | 96% | 100% | 35% → 97% | 1.14s | 83 tok/s | $0.7 | $0.000486 |
| 2 | grok-4.3 | xAI | intermedio | 53.1 | 95.8 | +42.7 | 97% | 100% | 29% → 94% | 3.22s | 120 tok/s | $1.562 | $0.002179 |
| 3 | gpt-5.4-nano | OpenAI | ligero | 38.3 | 95.5 | +57.2 | 95% | 100% | 22% → 96% | 1.21s | 84 tok/s | $0.463 | $0.000302 |
| 4 | opus-4.8 | Anthropic | avanzado | 58.4 | 95.5 | +37.1 | 97% | 100% | 20% → 85% | 3.7s | 71 tok/s | $10.0 | $0.013676 |
| 5 | gemini-3.1-flash-lite | ligero | 56.3 | 95.4 | +39.1 | 93% | 100% | 22% → 98% | 0.74s | 118 tok/s | $0.175 | $0.000125 | |
| 6 | gpt-5.5 | OpenAI | avanzado | 40.7 | 95.4 | +54.7 | 95% | 100% | 46% → 96% | 4.76s | 33 tok/s | $11.25 | $0.009351 |
| 7 | grok-4.20-reasoning | xAI | avanzado | 56.4 | 95.0 | +38.6 | 96% | 100% | 24% → 92% | 2.49s | 225 tok/s | $6.0 | $0.012179 |
| 8 | sonnet-4.6 | Anthropic | intermedio | 59.1 | 95.0 | +35.9 | 96% | 100% | 21% → 83% | 6.2s | 50 tok/s | $6.0 | $0.007406 |
| 9 | grok-3-mini | xAI | ligero | 49.7 | 94.8 | +45.1 | 95% | 98% | 32% → 91% | 3.19s | 118 tok/s | $0.35 | $0.000479 |
| 10 | gemini-3.5-flash | intermedio | 60.0 | 94.4 | +34.4 | 99% | 100% | 22% → 94% | 2.9s | 178 tok/s | $3.375 | $0.006279 | |
| 11 | gemini-3.1-pro | avanzado | 61.1 | 93.9 | +32.8 | 95% | 100% | 23% → 96% | 5.79s | 111 tok/s | $6.0 | $0.013897 | |
| 12 | haiku-4.5 | Anthropic | ligero | 41.5 | 93.6 | +52.1 | 95% | 100% | 18% → 88% | 1.97s | 87 tok/s | $2.0 | $0.001841 |
En un ámbito que castiga el conocimiento desactualizado, la precisión conectada y el salto de las afirmaciones ancladas son las pruebas que importan, y la capa de datos supera ambas.
Cómo lo medimos
- El conjunto completo de modelos de Anthropic, OpenAI, Google y xAI.
- Cientos de tareas químicas complejas sobre REACH, CLP, el GHS de la ONU, los convenios de Estocolmo, Basilea, Róterdam y Minamata y el Global Framework on Chemicals, cada una vinculada a su fuente oficial y a la revisión vigente.
- Dos condiciones: el modelo solo, y conectado a Obsidian.
- Un juez ciego puntúa cada respuesta; las afirmaciones ancladas provienen de una verificación aparte, afirmación por afirmación, contra la fuente oficial.
Ponga la fuente química oficial detrás de cada respuesta
Conecte Obsidian a la IA que ya usa y cada respuesta sobre REACH, GHS o los convenios vuelve con el régimen, la restricción vigente y la revisión en vigor. Nivel gratuito, configuración en dos minutos.
Descubra la capa de datos ObsidianQué significa esto
Para los equipos de químicos y materiales avanzados que siguen restricciones, inclusiones y clasificaciones entre jurisdicciones, el asistente que ya usa, alimentado con datos verificados, responde con la fuente oficial adjunta, de modo que un especialista regulatorio puede actuar sobre la respuesta en lugar de volver a comprobarla. El contexto también está aquí: los datos regulatorios tier-0 y la inteligencia regulatoria agéntica. Los resultados completos multisectoriales están en el benchmark de IA regulatoria. Para probarlo con sus propias preguntas, conecte la capa de datos regulatorios Obsidian.