Investigación · Resultados

Los resultados detrás de la capa de fiabilidad.

QSI se ha validado en ciencia, matemáticas, medicina, código y conocimiento general: miles de evaluaciones que abarcan modelos abiertos y de frontera. Esto es lo que se sostiene.

13+
modelos cubiertos, de abiertos a frontera
0.86–0.96
AUC que separa correctas de incorrectas
5
dominios validados de principio a fin
thousands
evaluaciones independientes
Cobertura entre modelos

Un detector, 13 modelos.

La misma capa de control separa las respuestas correctas de las incorrectas en 5 modelos de frontera y 8 de pesos abiertos. QSI lee los errores del propio modelo, no de uno para el que se haya ajustado.

de frontera de pesos abiertosAUC · separa respuestas correctas de incorrectas · 0,5 = azar
Cobertura por categoría

Dónde se equivocan los modelos más débiles.

QSI atrapa los errores que cometen los modelos más débiles y especializados: tasas de error del 40–80% en ítems difíciles, marcados antes de que lleguen a los usuarios.

Dominio Tasa de error en ítems difíciles Qué está atrapando QSI
Ciencia 52% Razonamiento de nivel posgrado donde las respuestas que suenan seguras suelen ser erróneas.
Matemáticas 61% Problemas de varios pasos donde un solo desliz invalida el resultado.
Medicina 44% Recuperación de hechos de alto riesgo donde una respuesta errónea no puede llegar a un usuario.
Código 73% Errores sutiles de lógica y casos límite que pasan una lectura rápida pero fallan en producción.
Conocimiento general 40% Preguntas factuales amplias que abarcan dominios cotidianos y especializados.

Las tasas de error ilustran con qué frecuencia los modelos más débiles o especializados se equivocan en ítems difíciles: los fallos que QSI destaca. Las cifras son indicativas del rango de cobertura, no de un único benchmark.

¿Quieres los números para tus modelos y tus dominios?

Ejecutamos QSI sobre tu tráfico y compartimos la separación que obtenemos con tus datos.