数据收集、评测与展示

延迟
- 定义与评测：向maas发送请求到收到响应的第一个token之间的时间（以秒为单位）。对于返回reason token的推理模型，这将是第一个reason token。
$延迟 = 收到第一个 t o k e n 的时间 - 请求发送时间$
- 数据展示：模型详情页中供应商数据的“延迟”一列采用最近6小时测试数据的第90百分位数（P90）。首页排行与模型详情页面延迟折线图的“平均”一列采用近7日测试数据的第90百分位数（P90）。
吞吐
- 定义与评测：收到第一个token后，每秒收到的token平均数。
$吞吐 = \frac{输出token数 - 1}{收到最终token的时间 - 收到第一个token的时间}$
- 数据展示：模型详情页中供应商数据的“吞吐”一列采用最近6小时测试数据的算数平均值。首页排行与模型详情页面吞吐折线图的“平均”一列采用近7日测试数据的算术平均值。
可靠性
- 定义与评测：成功请求在所有请求中的占比。
$可靠性 = \frac{请求成功次数}{请求总次数}$
- 数据展示：模型详情页中供应商数据的“可靠性”一列采用最近6小时可靠性测试数据。
输入/输出价格
- 定义：发送到 API 的请求/回答中包含的每个token的价格。
- 数据展示：来源于各家供应商所提供数据。
上下文长度
- 定义：允许的输入和输出token的之和的最大值。
- 数据展示：来源于各家供应商所提供数据。对于部分厂商未提供的上下文长度，AI Ping通过评测采用上下文长度超限时，API返回的报错信息。当供应商标称数据与AI Ping评测数据不一致时，暂时展示供应商标称数据。
最大输出长度
- 定义：允许的输出最大token数量。
- 数据展示：来源于各家供应商所提供数据。对于部分厂商未提供的最大输出长度，AI Ping通过评测采用输出长度超限时，API返回的报错信息；若无报错信息，采用最大上下文长度作为最大输出长度。当供应商标称数据与AI Ping评测数据不一致时，暂时展示供应商标称数据。
更多测试细节
- 在一轮测试中，同一模型的不同供应商之间，使用相同输入Prompt和参数，在同一时间段内测试。
- 所有测试均不使用缓存（Prompt Caching）。为避免缓存带来的性能影响，不同轮次测试间，输入Prompt前缀不同。
- 所有测试请求均使用北京地区服务器发出。

数据收集、评测与展示 ​

数据收集、评测与展示