Исследования · Результаты

Результаты, стоящие за слоем надёжности.

QSI проверен на науке, математике, медицине, коде и общих знаниях — тысячи оценок на открытых и передовых моделях. Вот что подтверждается на практике.

13+

моделей охвачено, от открытых до передовых

0.86–0.96

AUC разделения верных и ошибочных ответов

домена проверены от и до

thousands

независимых оценок

Охват по моделям

Один детектор, 13 моделей.

Один и тот же слой контроля отделяет верные ответы от ошибочных на 5 передовых и 8 открытых моделях. QSI считывает ошибки самой модели, а не той, под которую его «затачивали».

передовые открытыеAUC · разделение верных и ошибочных ответов · 0.5 = случайность

Охват по категориям

Где ошибаются более слабые модели.

QSI ловит ошибки слабых и узкоспециальных моделей — доля ошибок 40–80% на сложных задачах, выявленных до того, как они дойдут до пользователей.

Домен Доля ошибок на сложных задачах Что ловит QSI

Наука 52% Рассуждения уровня аспирантуры, где уверенно звучащие ответы часто ошибочны.

Математика 61% Многошаговые задачи, где одна оплошность обесценивает весь результат.

Медицина 44% Ответственный фактологический контекст, где ошибочный ответ не должен дойти до пользователя.

Код 73% Тонкие логические и краевые ошибки, незаметные при беглом взгляде, но падающие в продакшене.

Общие знания 40% Широкий круг фактических вопросов — от повседневных до узкоспециальных.

Доли ошибок показывают, как часто слабые/узкоспециальные модели ошибаются на сложных задачах — это сбои, которые выявляет QSI. Цифры иллюстрируют диапазон охвата, а не отдельный бенчмарк.

Хотите цифры для своих моделей и своих доменов?

Мы запустим QSI на вашем трафике и поделимся разделением, которое получаем на ваших данных.

Связаться с нами Как это работает