Investigación · Resultados

Los resultados detrás de la capa de fiabilidad.

QSI se ha validado en ciencia, matemáticas, medicina, código y conocimiento general: miles de evaluaciones que abarcan modelos abiertos y de frontera. Esto es lo que se sostiene.

13+

modelos cubiertos, de abiertos a frontera

0.86–0.96

AUC que separa correctas de incorrectas

dominios validados de principio a fin

thousands

evaluaciones independientes

Cobertura entre modelos

Un detector, 13 modelos.

La misma capa de control separa las respuestas correctas de las incorrectas en 5 modelos de frontera y 8 de pesos abiertos. QSI lee los errores del propio modelo, no de uno para el que se haya ajustado.

de frontera de pesos abiertosAUC · separa respuestas correctas de incorrectas · 0,5 = azar

Cobertura por categoría

Dónde se equivocan los modelos más débiles.

QSI atrapa los errores que cometen los modelos más débiles y especializados: tasas de error del 40–80% en ítems difíciles, marcados antes de que lleguen a los usuarios.

Dominio Tasa de error en ítems difíciles Qué está atrapando QSI

Ciencia 52% Razonamiento de nivel posgrado donde las respuestas que suenan seguras suelen ser erróneas.

Matemáticas 61% Problemas de varios pasos donde un solo desliz invalida el resultado.

Medicina 44% Recuperación de hechos de alto riesgo donde una respuesta errónea no puede llegar a un usuario.

Código 73% Errores sutiles de lógica y casos límite que pasan una lectura rápida pero fallan en producción.

Conocimiento general 40% Preguntas factuales amplias que abarcan dominios cotidianos y especializados.

Las tasas de error ilustran con qué frecuencia los modelos más débiles o especializados se equivocan en ítems difíciles: los fallos que QSI destaca. Las cifras son indicativas del rango de cobertura, no de un único benchmark.

¿Quieres los números para tus modelos y tus dominios?

Ejecutamos QSI sobre tu tráfico y compartimos la separación que obtenemos con tus datos.

Habla con nosotros Cómo funciona