研究 · 结果
可靠性层背后的结果。
QSI 已在科学、数学、医学、代码与常识上得到验证——横跨开放与前沿模型的数千次评估。以下是经得起检验的结论。
13+
个模型,从开放到前沿
0.86–0.96
AUC,区分正确与错误答案
5
个领域,端到端验证
thousands
次独立评估
跨模型覆盖
一个检测器,13 个模型。
同一个管控层,在 5 个前沿模型和 8 个开放权重模型上区分正确与错误答案。QSI 读取的是模型自身的错误,而非某个为其专门调优过的模型。
前沿 开放权重AUC · 区分正确与错误答案 · 0.5 = 随机水平
按类别覆盖
较弱的模型在哪里出错。
QSI 抓住较弱与专用模型所犯的错误——困难项上的错误率为 40–80%,在它们到达用户之前就被标出。
领域 困难项错误率 QSI 正在抓住什么
科学 52% 研究生级别的推理,听起来自信的答案往往是错的。
数学 61% 多步骤问题,一步之差便使整个结果作废。
医学 44% 高风险的事实性问答,错误答案绝不能到达用户。
代码 73% 细微的逻辑与边界错误,初看无碍,却会在生产中出问题。
常识 40% 横跨日常与专业领域的广泛事实性问题。
错误率说明较弱/专用模型在困难项上出错的频率——也就是 QSI 标出的那些失败。数字用以体现覆盖范围,而非某个单一基准。