Skip to content

数据收集、评测与展示

  • 延迟

    • 定义与评测:向maas发送请求到收到响应的第一个token之间的时间(以秒为单位)。对于返回reason token的推理模型,这将是第一个reason token。
    =token
    • 数据展示:模型详情页中供应商数据的“延迟”一列采用最近6小时测试数据的第90百分位数(P90)。首页排行与模型详情页面延迟折线图的“平均”一列采用近7日测试数据的第90百分位数(P90)。
  • 吞吐

    • 定义与评测:收到第一个token后,每秒收到的token平均数。
    吞吐=输出token数1收到最终token的时间收到第一个token的时间
    • 数据展示:模型详情页中供应商数据的“吞吐”一列采用最近6小时测试数据的算数平均值。首页排行与模型详情页面吞吐折线图的“平均”一列采用近7日测试数据的算术平均值。
  • 可靠性

    • 定义与评测:成功请求在所有请求中的占比。
    可靠性=请求成功次数请求总次数
    • 数据展示:模型详情页中供应商数据的“可靠性”一列采用最近6小时可靠性测试数据。
  • 输入/输出价格

    • 定义:发送到 API 的请求/回答中包含的每个token的价格。

    • 数据展示:来源于各家供应商所提供数据。

  • 上下文长度

    • 定义:允许的输入和输出token的之和的最大值。

    • 数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的上下文长度,AI Ping通过评测采用上下文长度超限时,API返回的报错信息。当供应商标称数据与AI Ping评测数据不一致时,暂时展示供应商标称数据。

  • 最大输出长度

    • 定义:允许的输出最大token数量。

    • 数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的最大输出长度,AI Ping通过评测采用输出长度超限时,API返回的报错信息;若无报错信息,采用最大上下文长度作为最大输出长度。当供应商标称数据与AI Ping评测数据不一致时,暂时展示供应商标称数据。

  • 更多测试细节

    • 在一轮测试中,同一模型的不同供应商之间,使用相同输入Prompt和参数,在同一时间段内测试。

    • 所有测试均不使用缓存(Prompt Caching)。为避免缓存带来的性能影响,不同轮次测试间,输入Prompt前缀不同。

    • 所有测试请求均使用北京地区服务器发出。