正文内容 评论(0)
快科技3月7日消息,日前美团技术团队宣布对DeepSeek R1进行了INT8精度量化,让DeepSeek R1可以在如A100等老型号GPU上进行部署。
据介绍,DeepSeek R1发布以后不少企业和个人都在尝试部署满血版本,但原生版本的模型权重为FP8数据格式,对GPU芯片类型有严格限制,仅能被英伟达新型GPU支持(如Ada、Hopper架构芯片),其他型号GPU(如A100)无法直接部署。
虽然可以将FP8权重反量化为BF16权重后,在A100等GPU上进行推理,但是这对显存的要求提升了一倍,推理吞吐也会下降。
为此美团搜索和推荐平台部对DeepSeek R1模型进行了INT8精度量化尝试,发现使用INT8量化后模型精度基本无损。
基于INT8量化,DeepSeek R1模型解锁了芯片限制,可以部署到A100等其他型号GPU;并且相比BF16实现了50%的吞吐提升,进一步降低了推理成本。
目前量化代码已经发布在了开源LLM推理框架SGLang上,量化模型已经发布到了Hugging Face社区:
https://huggingface.co/meituan/DeepSeek-R1-Block-INT8
https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8
对具体过程感兴趣的,可以查看官方技术报告。
- 热门文章
- 换一波
- 好物推荐
- 换一波
-
-
买1得2:爱奇艺黄金会员年卡+京东PLUS年卡158元发车
2025-04-19 7 -
康巴赫家用实木菜板44元起售:双面可用 抗菌耐用
2025-04-17 3
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...