Исследования · Результаты

Результаты, стоящие за слоем надёжности.

QSI проверен на науке, математике, медицине, коде и общих знаниях — тысячи оценок на открытых и передовых моделях. Вот что подтверждается на практике.

13+
моделей охвачено, от открытых до передовых
0.86–0.96
AUC разделения верных и ошибочных ответов
5
домена проверены от и до
thousands
независимых оценок
Охват по моделям

Один детектор, 13 моделей.

Один и тот же слой контроля отделяет верные ответы от ошибочных на 5 передовых и 8 открытых моделях. QSI считывает ошибки самой модели, а не той, под которую его «затачивали».

передовые открытыеAUC · разделение верных и ошибочных ответов · 0.5 = случайность
Охват по категориям

Где ошибаются более слабые модели.

QSI ловит ошибки слабых и узкоспециальных моделей — доля ошибок 40–80% на сложных задачах, выявленных до того, как они дойдут до пользователей.

Домен Доля ошибок на сложных задачах Что ловит QSI
Наука 52% Рассуждения уровня аспирантуры, где уверенно звучащие ответы часто ошибочны.
Математика 61% Многошаговые задачи, где одна оплошность обесценивает весь результат.
Медицина 44% Ответственный фактологический контекст, где ошибочный ответ не должен дойти до пользователя.
Код 73% Тонкие логические и краевые ошибки, незаметные при беглом взгляде, но падающие в продакшене.
Общие знания 40% Широкий круг фактических вопросов — от повседневных до узкоспециальных.

Доли ошибок показывают, как часто слабые/узкоспециальные модели ошибаются на сложных задачах — это сбои, которые выявляет QSI. Цифры иллюстрируют диапазон охвата, а не отдельный бенчмарк.

Хотите цифры для своих моделей и своих доменов?

Мы запустим QSI на вашем трафике и поделимся разделением, которое получаем на ваших данных.