数据收集、评测与展示
延迟
- 定义与评测:向maas发送请求到收到响应的第一个token之间的时间(以秒为单位)。对于返回reason token的推理模型,这将是第一个reason token。
- 数据展示:模型详情页中供应商数据的“延迟”一列采用最近6小时测试数据的第90百分位数(P90)。首页排行与模型详情页面延迟折线图的“平均”一列采用近7日测试数据的第90百分位数(P90)。
吞吐
- 定义与评测:收到第一个token后,每秒收到的token平均数。
- 数据展示:模型详情页中供应商数据的“吞吐”一列采用最近6小时测试数据的算数平均值。首页排行与模型详情页面吞吐折线图的“平均”一列采用近7日测试数据的算术平均值。
可靠性
- 定义与评测:成功请求在所有请求中的占比。
- 数据展示:模型详情页中供应商数据的“可靠性”一列采用最近6小时可靠性测试数据。
输入/输出价格
定义:发送到 API 的请求/回答中包含的每个token的价格。
数据展示:来源于各家供应商所提供数据。
上下文长度
定义:允许的输入和输出token的之和的最大值。
数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的上下文长度,AI Ping通过评测采用上下文长度超限时,API返回的报错信息。当供应商标称数据与AI Ping评测数据不一致时,暂时展示供应商标称数据。
最大输出长度
定义:允许的输出最大token数量。
数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的最大输出长度,AI Ping通过评测采用输出长度超限时,API返回的报错信息;若无报错信息,采用最大上下文长度作为最大输出长度。当供应商标称数据与AI Ping评测数据不一致时,暂时展示供应商标称数据。
更多测试细节
在一轮测试中,同一模型的不同供应商之间,使用相同输入Prompt和参数,在同一时间段内测试。
所有测试均不使用缓存(Prompt Caching)。为避免缓存带来的性能影响,不同轮次测试间,输入Prompt前缀不同。
所有测试请求均使用北京地区服务器发出。