正文内容 评论(0)
三、GPT-OSS-120B MXFP4多并发性能测试:能满足千人同时在线聊天
GPT-OSS-120B是OpenAI首个开源的千亿级参数模型,总参数 1170 亿 (117B),被认为是测试多卡并联(Multi-GPU Parallelism)和分布式计算性能的标杆。
我们将GPT-OSS-120B模型下载至容器的llm\models目录下,并开启vLLM OpenAI API服务,具体参数如下:
由于120b占用显卡超过66GB,只能4卡并联进行测试,推理精度bfloat16,单次批处理的最大Token总数为 8192,最大上下文长度(Token 数)为 3000,GPU 显存利用率上限为 90%(预留10%给系统),使用MXFP4(混合精度 FP4)进行量化压缩。
vLLM OpenAI API 服务已经成功启动,下面单开一个窗口进行测试。
vLLM版本是最新的0.5.0,无法使用过去的benchmark_serving.py脚本进行测试,因此我们直接使用vllm bench serve命令,分别测试并发数1,10,20,30,40,50,60,70,80,90,100时的AI性能。
这是并发数为1的测试成绩日志,请求成功率 100%,在处理 120B 这种超大规模模型时,100 个请求全部成功且无一报错,说明4卡 Arc Pro B60 + MXFP4运行测试时非常稳定。
TTFT (首字延迟)仅为91.37ms,说明Arc Pro B60预填充(Prefill)阶段的爆发力极强。
平均 ITL (逐词延迟) 为 32.01 ms,输出吞吐量则为184tok/s。
下面是并发数从1,10,20,30,40,50,60,70,80,90,100的性能变化。
当并发数从1~10时: 系统的吞吐量呈现指数级增长,从 184 飙升至 613 tok/s。
不过并发数达到60之后,吞吐量为701 tok/s,基本上已经达到了这套系统的极限,即便请求数增加到100之后,总吞吐量也就增加了1%左右。
整个测试期间,ITL (逐词延迟)稳定得出奇,在达到并发 30 后,ITL 甚至随着并发增加而轻微下降。也就是说在高负载下,计算核心被填充得更满,单步推理的效率反而由于批处理效应而略微提升。
TTFT (首字延迟)震动比较剧烈,并发数为1时仅有91ms,并发数20时为241ns,并发数100时已经到了1344ms。
对于大多数用户而言,10 tok/s即可拥有丝滑的访问体验,根据长城世恒X图形工作站700tok/s的极限性能计算,它可以承受70个用户同时请求回答。
再按1:15的活跃比计算,这台工作站可以支持1000人同时在线聊天。
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...







