Si trabaja en asuntos regulatorios o en calidad en el sector de los productos sanitarios o farmacéutico, un detalle decide si una respuesta es utilizable: la edición. ISO 13485, ISO 14971, ISO 14155, IEC 62304 y las directrices ICH se revisan constantemente, y citar una edición sustituida en una presentación o en una auditoría no es un desliz menor, es una no conformidad. Pregunte a una IA qué edición está vigente, qué cambió la última revisión de buena práctica clínica, o qué guía cubre los dispositivos con IA y aprendizaje automático: responderá con fluidez citando la edición con la que fue entrenada, que puede haber sido retirada.
Los modelos razonan sobre las normas perfectamente bien. Lo que les falla es el alcance: un modelo generalista no puede saber qué edición está en vigor hoy. Dele el texto vigente, y deja de adivinar.
Ese texto es lo que aporta Obsidian, con profundidad en las normas globales de ciencias de la vida. Sometimos a los modelos a cientos de tareas complejas sobre las normas medtech ISO e IEC, las directrices ICH y las guías IMDRF, cada una resuelta por el modelo solo y conectado a Obsidian.
La IA es imprecisa para el trabajo regulatorio en ciencias de la vida
Solos, los modelos promediaron 52 sobre 100. Conéctelos a Obsidian y la media sube a 96. La mejor pareja, gpt-5.5, alcanzó 97.5. Los modelos no cambiaron entre esas dos cifras. Solo cambiaron los datos que tenían delante.
Las ciencias de la vida son el caso más claro de todo este benchmark a favor de una capa de datos: las ediciones cambian constantemente, y un modelo que trabaja de memoria cita la que aprendió en lugar de la que está en vigor. Esa única brecha es donde se atasca una presentación. gemini-3.1-flash-lite, a $0.175 por millón de tokens, sube de 56 a 97 una vez conectado, hasta la banda de modelos que cuestan muchas veces más. Un modelo ligero conectado a Obsidian superó a un modelo de frontera respondiendo solo en 16 de los 16 enfrentamientos directos del conjunto de ciencias de la vida.
La IA no puede indicarle la norma oficial
Aquí la edición es la respuesta. Conectada a Obsidian, una respuesta llega con la norma, su edición vigente, el organismo emisor y un enlace directo. Solo, obtiene una cita plausible, a menudo la edición equivocada, que tendrá que verificar usted mismo. Para una revisión de un organismo notificado o una presentación regulatoria, la diferencia entre la edición vigente y una retirada es la diferencia entre un expediente defendible y una no conformidad.
Una respuesta con la fuente tier-0 adjunta es una respuesta que puede reenviar a un auditor sin volver a comprobarla. Esa es la diferencia entre un borrador imaginado por un modelo y una obligación sobre la que puede actuar.
La IA alucina
Descompusimos cada respuesta en sus afirmaciones factuales individuales y comprobamos cada una contra la fuente oficial. La brecha entre las dos cifras de afirmaciones fundadas de arriba es el tipo de error peligroso que desaparece, en un terreno donde una sola edición equivocada arruina una presentación. El resto no fundado es contexto añadido, no referencias inventadas.
Los datos completos, para los puristas
Cada modelo, en ambas condiciones. "Solo" es el modelo sin capa de datos; "con Obsidian" es el mismo modelo conectado. La precisión es una puntuación de 0 a 100 otorgada por un juez ciego frente a una verdad de referencia verificada por personas. "Afirmaciones fundadas" es la proporción de afirmaciones factuales atómicas de la respuesta que se remontan a la fuente oficial, solo frente a con Obsidian.
| # | Modelo | Proveedor | Nivel | Prec. solo | Prec. + Obsidian | Mejora | Cita la fuente | Estado correcto | Afirmaciones fundadas (solo → +Obs) | Latencia | Velocidad | Precio /1M | Coste / pregunta |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | gpt-5.5 | OpenAI | avanzado | 38.1 | 97.5 | +59.4 | 96% | 100% | 42% → 98% | 4.73s | 49 tok/s | $11.25 | $0.026259 |
| 2 | grok-3-mini | xAI | ligero | 46.5 | 97.2 | +50.7 | 99% | 100% | 34% → 94% | 3.21s | 136 tok/s | $0.35 | $0.001342 |
| 3 | gpt-5.4-nano | OpenAI | ligero | 34.5 | 97.0 | +62.5 | 97% | 100% | 24% → 98% | 1.49s | 88 tok/s | $0.463 | $0.000922 |
| 4 | gemini-3.1-flash-lite | ligero | 56.2 | 96.8 | +40.6 | 98% | 100% | 30% → 98% | 0.86s | 139 tok/s | $0.175 | $0.000469 | |
| 5 | gpt-5.4-mini | OpenAI | intermedio | 63.1 | 96.7 | +33.6 | 97% | 100% | 38% → 95% | 1.28s | 87 tok/s | $0.7 | $0.001685 |
| 6 | grok-4.20-reasoning | xAI | avanzado | 62.6 | 96.6 | +34.0 | 96% | 100% | 30% → 96% | 2.86s | 226 tok/s | $6.0 | $0.021106 |
| 7 | opus-4.8 | Anthropic | avanzado | 65.3 | 96.6 | +31.3 | 96% | 100% | 28% → 93% | 5.86s | 69 tok/s | $10.0 | $0.039476 |
| 8 | gemini-3.5-flash | intermedio | 57.2 | 96.3 | +39.1 | 99% | 100% | 34% → 98% | 3.62s | 183 tok/s | $3.375 | $0.012549 | |
| 9 | grok-4.3 | xAI | intermedio | 44.5 | 96.3 | +51.8 | 98% | 100% | 32% → 97% | 3.21s | 132 tok/s | $1.562 | $0.005775 |
| 10 | haiku-4.5 | Anthropic | ligero | 32.7 | 96.3 | +63.6 | 98% | 100% | 22% → 90% | 3.98s | 64 tok/s | $2.0 | $0.005482 |
| 11 | sonnet-4.6 | Anthropic | intermedio | 63.3 | 95.0 | +31.7 | 96% | 100% | 26% → 85% | 9.57s | 42 tok/s | $6.0 | $0.019201 |
| 12 | gemini-3.1-pro | avanzado | 62.8 | 94.5 | +31.7 | 92% | 100% | 42% → 98% | 6.25s | 107 tok/s | $6.0 | $0.020789 |
Las ciencias de la vida muestran la mayor brecha entre un modelo que trabaja de memoria y uno que lee la norma vigente, justo donde una capa de datos mantenida se gana su lugar.
Cómo lo medimos
- El conjunto completo de modelos de Anthropic, OpenAI, Google y xAI.
- Cientos de tareas complejas de ciencias de la vida sobre las normas medtech ISO e IEC (calidad, riesgo, clínica, software, biocompatibilidad), las directrices ICH y las guías IMDRF, cada una vinculada a su fuente oficial y a su edición vigente.
- Dos condiciones: el modelo solo, y conectado a Obsidian.
- Un juez ciego puntúa cada respuesta; las afirmaciones fundadas proceden de una comprobación separada, afirmación por afirmación, contra la fuente oficial.
Ponga la edición correcta de cada norma detrás de su IA
Conecte Obsidian a la IA que ya usa y cada respuesta sobre normas volverá con la edición vigente y el organismo emisor. Plan gratuito, configuración en dos minutos.
Explorar la capa de datos ObsidianQué significa esto
Para los equipos regulatorios y de calidad de productos sanitarios y farma, el asistente que ya usa, alimentado con datos verificados, deja de citar ediciones retiradas y empieza a responder con la norma y la edición realmente en vigor, de modo que un revisor puede confiar en él en una presentación. El contexto está aquí: los datos regulatorios tier-0 y la inteligencia regulatoria agéntica. Los resultados completos de todos los sectores están en el benchmark de IA regulatoria. Para probarlo con sus propias preguntas, conecte la capa de datos regulatorios de Obsidian.