Si trabaja en sostenibilidad y reporting ESG, el terreno no deja de moverse bajo sus pies. La CSRD arrastró a una ola de empresas al reporte obligatorio, luego la simplificación Ómnibus cambió quién entra en el ámbito de aplicación y cuándo, mientras que la Taxonomía de la UE, el SFDR, la CSDDD y el CBAM tienen cada uno sus propios umbrales y fechas. Pida a un asistente de IA que confirme cualquiera de estos puntos y la respuesta llega fluida y a menudo desactualizada: una regla de ámbito anterior a la simplificación, un plazo que ya se ha desplazado, una medida citada como vinculante cuando todavía es una propuesta.
Los modelos que ya usa razonan perfectamente bien sobre las reglas ESG. Lo que les falla es el alcance: un modelo generalista no puede abrir el texto consolidado vigente ni saber qué cambió la última modificación. Dele ese texto, y deja de adivinar.
Ese texto es lo que aporta Obsidian, con una cobertura profunda y actualizada del derecho europeo de sostenibilidad. Sometimos a los modelos a cientos de tareas ESG complejas sobre la CSRD, las ESRS, la Taxonomía de la UE, el SFDR, la CSDDD y el CBAM, cada una resuelta a solas y conectada a Obsidian.
La IA es imprecisa en la regulación ESG
Solos, los modelos promediaron 72 sobre 100. Conéctelos a Obsidian y la media sube a 90. Los modelos no cambiaron entre esas dos cifras. Solo cambiaron los datos que tenían delante.
ESG es el dominio donde los modelos generalistas parecen más sólidos por sí mismos, porque estos marcos se discuten en todas partes, y eso es exactamente lo que hace relevante el resultado: incluso aquí el modelo falla el ámbito actual, los umbrales posteriores a la simplificación y si una medida está realmente en vigor. La capa de datos cierra esa brecha. gemini-3.1-flash-lite, a $0.175 por millón de tokens, sube de 70 a 95 una vez conectado, la mejor puntuación de la tabla, por delante de cualquier modelo que cuesta muchas veces más. Un modelo de gama ligera conectado a Obsidian venció a un modelo de frontera respondiendo solo en 16 de 16 enfrentamientos directos en el conjunto ESG.
La IA no puede señalarle la fuente ESG oficial
Para un equipo de sostenibilidad, la cita es el entregable. Conectada a Obsidian, una respuesta llega con el instrumento oficial adjunto, la directiva o el reglamento detrás de la CSRD, la Taxonomía, el SFDR o la CSDDD, con su estado actual y un enlace directo. A solas, obtiene una referencia plausible que luego tiene que rastrear y fechar usted mismo, en un terreno donde la versión y el estado de vigencia son toda la respuesta.
Una respuesta con la fuente tier-0 adjunta es una respuesta que puede reenviar a un auditor sin volver a comprobarla. Esa es la diferencia entre un borrador que un modelo imaginó y una obligación sobre la que puede actuar.
La IA alucina
Descompusimos cada respuesta en sus afirmaciones factuales individuales y comprobamos cada una contra la fuente oficial. La brecha entre las dos cifras de afirmaciones ancladas de arriba es lo que importa en un terreno donde un plazo erróneo o un borrador tomado por ley vinculante se convierte en una inexactitud en un informe publicado. Lo que desaparece es la afirmación segura sin nada detrás; el resto no anclado es contexto añadido, no referencias inventadas.
Los datos completos, para los puristas
Cada modelo, en ambas condiciones. "Solo" es el modelo sin capa de datos; "con Obsidian" es el mismo modelo conectado. La precisión es una puntuación de 0 a 100 otorgada por un juez ciego frente a una verdad de referencia verificada por humanos. "Afirmaciones ancladas" es la proporción de las afirmaciones factuales atómicas de la respuesta que se remontan a la fuente oficial, solo frente a con Obsidian.
| # | Modelo | Proveedor | Gama | Prec. solo | Prec. + Obsidian | Mejora | Cita la fuente | Estado correcto | Afirmaciones ancladas (solo → +Obs) | Latencia | Velocidad | Precio /1M | Coste / pregunta |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gemini-3.1-flash-lite | ligero | 69.5 | 94.6 | +25.1 | 96% | 100% | 23% → 98% | 0.86s | 127 tok/s | $0.175 | $0.000188 | |
| 2 | gpt-5.4-nano | OpenAI | ligero | 56.8 | 93.7 | +36.9 | 90% | 98% | 41% → 93% | 1.59s | 75 tok/s | $0.463 | $0.000408 |
| 3 | gpt-5.4-mini | OpenAI | medio | 84.4 | 93.6 | +9.2 | 94% | 100% | 41% → 99% | 1.33s | 84 tok/s | $0.7 | $0.000689 |
| 4 | opus-4.8 | Anthropic | avanzado | 81.1 | 93.3 | +12.2 | 96% | 100% | 24% → 87% | 5.94s | 65 tok/s | $10.0 | $0.019428 |
| 5 | sonnet-4.6 | Anthropic | medio | 81.0 | 92.6 | +11.6 | 94% | 100% | 24% → 73% | 7.83s | 49 tok/s | $6.0 | $0.009912 |
| 6 | haiku-4.5 | Anthropic | ligero | 58.9 | 90.3 | +31.4 | 93% | 100% | 23% → 87% | 3.01s | 77 tok/s | $2.0 | $0.002546 |
| 7 | gpt-5.5 | OpenAI | avanzado | 74.2 | 89.7 | +15.5 | 95% | 100% | 45% → 93% | 5.2s | 44 tok/s | $11.25 | $0.014132 |
| 8 | grok-3-mini | xAI | ligero | 69.0 | 87.0 | +18.0 | 96% | 100% | 36% → 88% | 3.27s | 126 tok/s | $0.35 | $0.000617 |
| 9 | grok-4.20-reasoning | xAI | avanzado | 77.7 | 86.8 | +9.1 | 91% | 95% | 30% → 88% | 3.04s | 214 tok/s | $6.0 | $0.015101 |
| 10 | grok-4.3 | xAI | medio | 74.0 | 86.4 | +12.4 | 88% | 95% | 36% → 88% | 3.2s | 126 tok/s | $1.562 | $0.002703 |
| 11 | gemini-3.1-pro | avanzado | 69.3 | 86.0 | +16.7 | 88% | 95% | 31% → 96% | 6.21s | 107 tok/s | $6.0 | $0.016565 | |
| 12 | gemini-3.5-flash | medio | 67.9 | 83.7 | +15.8 | 90% | 95% | 29% → 92% | 3.41s | 180 tok/s | $3.375 | $0.0089 |
En ESG los modelos ya puntúan bien solo con el debate público, lo que convierte la precisión conectada y el salto de las afirmaciones ancladas en las pruebas más exigentes, y la capa de datos supera ambas.
Cómo lo medimos
- El conjunto completo de modelos de Anthropic, OpenAI, Google y xAI.
- Cientos de tareas ESG complejas sobre la CSRD, las ESRS, la Taxonomía de la UE, el SFDR, la CSDDD y el CBAM, cada una vinculada a su referencia oficial y a su estado actual. Las tareas fuera de la cobertura ESG actual de Obsidian se apartan, de modo que la puntuación refleja la calidad de las respuestas.
- Dos condiciones: el modelo solo, y conectado a Obsidian.
- Un juez ciego puntúa cada respuesta; las afirmaciones ancladas provienen de una comprobación separada, afirmación por afirmación, contra la fuente oficial.
Ponga la fuente ESG oficial detrás de cada respuesta
Conecte Obsidian a la IA que ya usa y cada respuesta sobre la CSRD, la Taxonomía o el SFDR vuelve con su instrumento oficial, su fecha y su estado actual. Nivel gratuito, configuración en dos minutos.
Explore la capa de datos ObsidianQué significa esto
No necesita un modelo más caro, y no tiene que aceptar conjeturas sobre un corpus normativo que se mueve cada trimestre. El asistente que su equipo ya usa, alimentado con datos ESG verificados, responde con el instrumento vigente adjunto, de modo que un responsable de sostenibilidad puede actuar sobre la respuesta en lugar de volver a comprobarla. El contexto también está aquí: la inteligencia regulatoria ESG y CSRD y los datos regulatorios tier-0. Los resultados completos de todas las industrias están en el benchmark de IA regulatoria. Para probarlo con sus propias preguntas, conecte la capa de datos regulatorios Obsidian.