Claude es uno de los razonadores más sólidos que se pueden poner frente a un problema. Sin embargo, hágale una pregunta regulatoria y la respuesta, por fluida que sea, a menudo no sobrevive a una verificación: un número de reglamento que no existe, una edición desactualizada, un borrador citado como si fuera vinculante. La conclusión natural es que ni siquiera un modelo tan capaz merece confianza en materia de regulación.

Es la conclusión equivocada. El razonamiento de Claude nunca fue el problema; su alcance sí. Un modelo generalista responde desde una instantánea congelada de la web, sin forma de abrir el texto real de un reglamento ni de saber si está en vigor hoy. Dele a Claude ese texto, y deja de adivinar.

Ese texto es lo que aporta Obsidian. Sometimos a los modelos Claude, Haiku 4.5, Sonnet 4.6 y Opus 4.8, a cientos de tareas regulatorias complejas en ESG, químicos y ciencias de la vida, cada una resuelta por el modelo solo y conectado a Obsidian.

59 → 94
Precisión regulatoria media, los mismos modelos solos vs conectados (sobre 100)
23% → 86%
Proporción de las afirmaciones factuales de una respuesta ancladas en la fuente oficial
96%
Respuestas conectadas que citaron la fuente oficial correcta

Claude es impreciso para el trabajo regulatorio

Solos, los modelos Claude promediaron 59 sobre 100. Conectados a Obsidian, la media sube a 94. La mejor combinación, opus-4.8, alcanzó 95.2. Los modelos no cambiaron entre esas dos cifras. Solo cambió el dato que tenían delante.

Precisión regulatoria frente al precio por 1M de tokens
Precisión regulatoria frente al precio. Conectado a Obsidian (las monedas más anchas), todos los modelos convergen cerca de la cima.
Precisión regulatoria frente al tiempo medio de respuesta en segundos
Lo mismo frente al tiempo de respuesta.

El Claude más ligero defiende el argumento por sí solo. haiku-4.5, a $2.0 por millón de tokens, sube de 44 a 94 una vez conectado, a la banda de modelos que cuestan muchas veces más. No necesita el Claude más grande para ser preciso en regulación; necesita entregarle los datos, y la tabla por modelo muestra la misma convergencia en los tres.

Claude no puede señalarle la fuente oficial

La precisión es solo la mitad. Conectada a Obsidian, una respuesta de Claude muestra su trabajo: el instrumento, su referencia y edición exactas, el estado legal y un enlace directo al documento oficial, a menudo el PDF de origen. Solo, Claude escribe una cita fluida que usted debe confirmar después. Conectado, la cita llega ya verificable, que es la parte que un equipo regulatorio realmente necesita.

Una respuesta con la fuente tier-0 adjunta es una respuesta que puede reenviar a un auditor sin volver a comprobarla. Esa es la diferencia entre un borrador imaginado por un modelo y una obligación sobre la que puede actuar.

Claude alucina

Descompusimos cada respuesta de Claude en sus afirmaciones factuales individuales y verificamos cada una contra la fuente oficial. La brecha entre las dos cifras de afirmaciones ancladas de arriba es el tipo peligroso de error eliminado. Claude escribe respuestas ricas y elaboradas y añade contexto más allá de la fuente estricta, por eso la cifra conectada no es aún más alta; lo que desaparece es la afirmación segura sin nada detrás.

Los datos completos, para los puristas

Todos los modelos, ambas condiciones. "Solo" es el modelo sin capa de datos; "con Obsidian" es el mismo modelo conectado. La precisión es una puntuación de 0 a 100 de un juez ciego contra una verdad de referencia verificada por humanos. Las "afirmaciones ancladas" son la proporción de las afirmaciones factuales atómicas de la respuesta que se remontan a la fuente oficial, solo frente a con Obsidian.

#ModeloGamaPrec. soloPrec. + ObsidianMejoraCita la fuenteEstado correctoAfirmaciones ancladas (solo → +Obs)LatenciaVelocidadPrecio /1MCoste / pregunta
1opus-4.8avanzado67.695.2+27.696%100%24% → 89%4.86s69 tok/s$10.0$0.024427
2sonnet-4.6intermedio67.194.3+27.296%100%24% → 81%7.89s46 tok/s$6.0$0.012284
3haiku-4.5ligero43.693.5+49.996%100%21% → 88%2.85s75 tok/s$2.0$0.003326

Agregando todas las respuestas, el Claude más ligero conectado a Obsidian supera al Claude de frontera respondiendo solo, a una fracción del coste.

Cómo lo medimos

  • Tres modelos Claude: Haiku 4.5, Sonnet 4.6, Opus 4.8.
  • Cientos de tareas regulatorias complejas en ESG (CSRD, las ESRS, la Taxonomía de la UE, SFDR), químicos (REACH, el GHS de la ONU, los convenios mundiales) y ciencias de la vida (las normas medtech ISO e IEC, ICH, IMDRF), cada una vinculada a su fuente oficial.
  • Dos condiciones: Claude solo, y Claude conectado a Obsidian.
  • Un juez ciego puntúa cada respuesta contra una verdad de referencia verificada por humanos; las afirmaciones ancladas provienen de una verificación aparte, afirmación por afirmación.

Haga de Claude el modelo de la primera fila

Conecte Obsidian a Claude y cada respuesta regulatoria vuelve con su fuente oficial, su fecha y su estado legal. Nivel gratuito, configuración en dos minutos.

Descubra la capa de datos Obsidian

Qué significa esto

El Claude que ya usa, alimentado con datos regulatorios verificados, responde con la precisión de un especialista y los comprobantes de un auditor. El contexto también está aquí: por qué la IA alucina con las preguntas regulatorias, qué son los datos regulatorios tier-0 y la idea de la inteligencia regulatoria agéntica. Los resultados completos entre proveedores están en el benchmark de IA regulatoria. Para probarlo con sus propias preguntas, conecte la capa de datos regulatorios Obsidian.