正文内容 评论(0)
借助TensorRT-LLM,Google全新开放语言模型可在NVIDIA AI平台(包括本地 RTX AI PC)上加速运行
2024年2月21日,NVIDIA携手Google在所有NVIDIA AI平台上发布面向Gemma的优化功能,Gemma是Google最先进的新型轻量级2B和 7B开放语言模型,可在任何地方运行,从而降低成本并加快特定领域用户案例的创新工作。
NVIDIA 和 Google的团队紧密合作,利用NVIDIA TensorRT-LLM(用于优化大语言模型推理性能的开源库),在数据中心的NVIDIA GPU、云计算和搭载NVIDIA RTX GPU 的PC上运行时,加速Gemma性能(Gemma由创建 Gemini 模型的相同研究和技术构建)。
这使开发者能将全球高性能 AI PC中超过1亿台搭载NVIDIA RTX GPU的用户作为潜在用户进行开发。
开发者还可在搭载 NVIDIA GPU 的云端运行Gemma,该实例拥有141GB HBM3e显存,速度为4.8TB/秒,Google将于今年部署该实例。
此外,企业级开发者还可利用NVIDIA丰富的工具生态系统(包括依托NeMo框架的 NVIDIA AI Enterprise和 TensorRT-LLM),对 Gemma 进行微调,并将优化后的模型部署到生产应用中。
详细了解有关 TensorRT-LLM如何加快 Gemma 推理速度的更多信息,以及面向开发者的其他信息:包括 Gemma 的多个模型文件和模型的 FP8 量化版本,以上这些都使用 TensorRT-LLM 进行优化。
您可在NVIDIA AI Playground 上直接通过浏览器体验 Gemma 2B 和Gemma 7B。
Gemma 即将上线Chat with RTX
NVIDIA Chat with RTX 技术演示版也即将支持 Gemma,该Demo使用 检索增强生成(RAG) 和 TensorRT-LLM 软件,为用户提供在本地 Windows RTX PC 上的生成式AI功能。
视频链接:https://www.bilibili.com/video/BV1Ky421z7PT/
借助Chat with RTX,用户可将 PC上的本地文件轻松连接到大语言模型,利用自己的数据打造个性化聊天机器人。
由于模型在本地运行,因此可快速生成结果,而用户数据则保留在本地设备上。与依赖基于云的 LLM 服务不同,Chat with RTX 可让用户在本地 PC 上处理敏感数据,而无需与第三方共享这些数据或连接互联网。
本文收录在
#快讯
- 热门文章
- 换一波
- 好物推荐
- 换一波
- 关注我们
-
微博:快科技官方
快科技官方微博 -
今日头条:快科技
带来硬件软件、手机数码最快资讯! -
抖音:kkjcn
科技快讯、手机开箱、产品体验、应用推荐...