Si trabaja en sostenibilidad y reporting ESG, el terreno no deja de moverse bajo sus pies. La CSRD arrastró a una ola de empresas al reporte obligatorio, luego la simplificación Ómnibus cambió quién entra en el ámbito de aplicación y cuándo, mientras que la Taxonomía de la UE, el SFDR, la CSDDD y el CBAM tienen cada uno sus propios umbrales y fechas. Pida a un asistente de IA que confirme cualquiera de estos puntos y la respuesta llega fluida y a menudo desactualizada: una regla de ámbito anterior a la simplificación, un plazo que ya se ha desplazado, una medida citada como vinculante cuando todavía es una propuesta.

Los modelos que ya usa razonan perfectamente bien sobre las reglas ESG. Lo que les falla es el alcance: un modelo generalista no puede abrir el texto consolidado vigente ni saber qué cambió la última modificación. Dele ese texto, y deja de adivinar.

Ese texto es lo que aporta Obsidian, con una cobertura profunda y actualizada del derecho europeo de sostenibilidad. Sometimos a los modelos a cientos de tareas ESG complejas sobre la CSRD, las ESRS, la Taxonomía de la UE, el SFDR, la CSDDD y el CBAM, cada una resuelta a solas y conectada a Obsidian.

72 → 90
Precisión regulatoria media, los mismos modelos solos vs conectados (sobre 100)
30% → 89%
Proporción de las afirmaciones factuales de una respuesta ancladas en la fuente oficial
93%
Respuestas conectadas que citaron la fuente oficial correcta

La IA es imprecisa en la regulación ESG

Solos, los modelos promediaron 72 sobre 100. Conéctelos a Obsidian y la media sube a 90. Los modelos no cambiaron entre esas dos cifras. Solo cambiaron los datos que tenían delante.

Precisión regulatoria frente al precio por 1M de tokens
La precisión regulatoria frente al precio. Conectado a Obsidian (las fichas más anchas), cada modelo converge hacia la parte alta.
Precisión regulatoria frente al tiempo medio de respuesta en segundos
Lo mismo frente al tiempo de respuesta.

ESG es el dominio donde los modelos generalistas parecen más sólidos por sí mismos, porque estos marcos se discuten en todas partes, y eso es exactamente lo que hace relevante el resultado: incluso aquí el modelo falla el ámbito actual, los umbrales posteriores a la simplificación y si una medida está realmente en vigor. La capa de datos cierra esa brecha. gemini-3.1-flash-lite, a $0.175 por millón de tokens, sube de 70 a 95 una vez conectado, la mejor puntuación de la tabla, por delante de cualquier modelo que cuesta muchas veces más. Un modelo de gama ligera conectado a Obsidian venció a un modelo de frontera respondiendo solo en 16 de 16 enfrentamientos directos en el conjunto ESG.

La IA no puede señalarle la fuente ESG oficial

Para un equipo de sostenibilidad, la cita es el entregable. Conectada a Obsidian, una respuesta llega con el instrumento oficial adjunto, la directiva o el reglamento detrás de la CSRD, la Taxonomía, el SFDR o la CSDDD, con su estado actual y un enlace directo. A solas, obtiene una referencia plausible que luego tiene que rastrear y fechar usted mismo, en un terreno donde la versión y el estado de vigencia son toda la respuesta.

Una respuesta con la fuente tier-0 adjunta es una respuesta que puede reenviar a un auditor sin volver a comprobarla. Esa es la diferencia entre un borrador que un modelo imaginó y una obligación sobre la que puede actuar.

La IA alucina

Descompusimos cada respuesta en sus afirmaciones factuales individuales y comprobamos cada una contra la fuente oficial. La brecha entre las dos cifras de afirmaciones ancladas de arriba es lo que importa en un terreno donde un plazo erróneo o un borrador tomado por ley vinculante se convierte en una inexactitud en un informe publicado. Lo que desaparece es la afirmación segura sin nada detrás; el resto no anclado es contexto añadido, no referencias inventadas.

Los datos completos, para los puristas

Cada modelo, en ambas condiciones. "Solo" es el modelo sin capa de datos; "con Obsidian" es el mismo modelo conectado. La precisión es una puntuación de 0 a 100 otorgada por un juez ciego frente a una verdad de referencia verificada por humanos. "Afirmaciones ancladas" es la proporción de las afirmaciones factuales atómicas de la respuesta que se remontan a la fuente oficial, solo frente a con Obsidian.

#ModeloProveedorGamaPrec. soloPrec. + ObsidianMejoraCita la fuenteEstado correctoAfirmaciones ancladas (solo → +Obs)LatenciaVelocidadPrecio /1MCoste / pregunta
1gemini-3.1-flash-liteGoogleligero69.594.6+25.196%100%23% → 98%0.86s127 tok/s$0.175$0.000188
2gpt-5.4-nanoOpenAIligero56.893.7+36.990%98%41% → 93%1.59s75 tok/s$0.463$0.000408
3gpt-5.4-miniOpenAImedio84.493.6+9.294%100%41% → 99%1.33s84 tok/s$0.7$0.000689
4opus-4.8Anthropicavanzado81.193.3+12.296%100%24% → 87%5.94s65 tok/s$10.0$0.019428
5sonnet-4.6Anthropicmedio81.092.6+11.694%100%24% → 73%7.83s49 tok/s$6.0$0.009912
6haiku-4.5Anthropicligero58.990.3+31.493%100%23% → 87%3.01s77 tok/s$2.0$0.002546
7gpt-5.5OpenAIavanzado74.289.7+15.595%100%45% → 93%5.2s44 tok/s$11.25$0.014132
8grok-3-minixAIligero69.087.0+18.096%100%36% → 88%3.27s126 tok/s$0.35$0.000617
9grok-4.20-reasoningxAIavanzado77.786.8+9.191%95%30% → 88%3.04s214 tok/s$6.0$0.015101
10grok-4.3xAImedio74.086.4+12.488%95%36% → 88%3.2s126 tok/s$1.562$0.002703
11gemini-3.1-proGoogleavanzado69.386.0+16.788%95%31% → 96%6.21s107 tok/s$6.0$0.016565
12gemini-3.5-flashGooglemedio67.983.7+15.890%95%29% → 92%3.41s180 tok/s$3.375$0.0089

En ESG los modelos ya puntúan bien solo con el debate público, lo que convierte la precisión conectada y el salto de las afirmaciones ancladas en las pruebas más exigentes, y la capa de datos supera ambas.

Cómo lo medimos

  • El conjunto completo de modelos de Anthropic, OpenAI, Google y xAI.
  • Cientos de tareas ESG complejas sobre la CSRD, las ESRS, la Taxonomía de la UE, el SFDR, la CSDDD y el CBAM, cada una vinculada a su referencia oficial y a su estado actual. Las tareas fuera de la cobertura ESG actual de Obsidian se apartan, de modo que la puntuación refleja la calidad de las respuestas.
  • Dos condiciones: el modelo solo, y conectado a Obsidian.
  • Un juez ciego puntúa cada respuesta; las afirmaciones ancladas provienen de una comprobación separada, afirmación por afirmación, contra la fuente oficial.

Ponga la fuente ESG oficial detrás de cada respuesta

Conecte Obsidian a la IA que ya usa y cada respuesta sobre la CSRD, la Taxonomía o el SFDR vuelve con su instrumento oficial, su fecha y su estado actual. Nivel gratuito, configuración en dos minutos.

Explore la capa de datos Obsidian

Qué significa esto

No necesita un modelo más caro, y no tiene que aceptar conjeturas sobre un corpus normativo que se mueve cada trimestre. El asistente que su equipo ya usa, alimentado con datos ESG verificados, responde con el instrumento vigente adjunto, de modo que un responsable de sostenibilidad puede actuar sobre la respuesta en lugar de volver a comprobarla. El contexto también está aquí: la inteligencia regulatoria ESG y CSRD y los datos regulatorios tier-0. Los resultados completos de todas las industrias están en el benchmark de IA regulatoria. Para probarlo con sus propias preguntas, conecte la capa de datos regulatorios Obsidian.