研究 · 结果

可靠性层背后的结果。

QSI 已在科学、数学、医学、代码与常识上得到验证——横跨开放与前沿模型的数千次评估。以下是经得起检验的结论。

13+

个模型，从开放到前沿

0.86–0.96

AUC，区分正确与错误答案

个领域，端到端验证

thousands

次独立评估

跨模型覆盖

一个检测器，13 个模型。

同一个管控层，在 5 个前沿模型和 8 个开放权重模型上区分正确与错误答案。QSI 读取的是模型自身的错误，而非某个为其专门调优过的模型。

前沿开放权重AUC · 区分正确与错误答案 · 0.5 = 随机水平

按类别覆盖

QSI 抓住较弱与专用模型所犯的错误——困难项上的错误率为 40–80%，在它们到达用户之前就被标出。

领域困难项错误率 QSI 正在抓住什么

科学 52% 研究生级别的推理，听起来自信的答案往往是错的。

数学 61% 多步骤问题，一步之差便使整个结果作废。

医学 44% 高风险的事实性问答，错误答案绝不能到达用户。

代码 73% 细微的逻辑与边界错误，初看无碍，却会在生产中出问题。

常识 40% 横跨日常与专业领域的广泛事实性问题。

错误率说明较弱/专用模型在困难项上出错的频率——也就是 QSI 标出的那些失败。数字用以体现覆盖范围，而非某个单一基准。

我们在你的流量上运行 QSI，并分享我们在你的数据上得到的区分度。