正文内容 评论(0)
五、开发工具:零成本移植 搞定CUDA
开发GPU和显卡非常难,软件开发与生态推广更是难上加难,尤其是全球GPU行业已经几乎被NVIDIA及其CUDA所垄断,AMD、Intel都难以撼动其地位,更别说在这方面几乎是一片空白的国产厂商了。
2022年,摩尔线程推出了元计算统一系统架构“MUSA”,颇有点直接对标CUDA的意味,它包括统一的编程模型、软件运行库、驱动程序框架、指令集架构、芯片架构,可以说从硬件底层到软件开发,提供了一套完整的解决方案。
围绕MUSA架构,摩尔线程这次宣布了一系列重要技术更新。
一是软件工具包MUSA Toolkit 1.0。
它包含MUSA驱动(通用计算/图形渲染/多媒体/多卡互联)、运行时库、C++标准库、编译器、AI加速库、模板库、算法库、通用计算库、数学库、通信库、多媒体库等等,极为丰富。
可以说,这个软件工具包为开发者提供了一站式的全套深度服务,可以根据需要从不同角度调用摩尔线程GPU的硬件能力,从而充分释放其计算能力、图形能力。
二是代码移植工具MUSIFY。
它可以快速将现有的CUDA程序迁移至MUSA平台,零成本完成CUDA代码自动移植。
自动移植完成后,开发者在短时间内即可完成热点分析、针对性优化,大大缩短迁移优化的周期,省时、省力、省事、省心。
在以往,这类移植需要投入数百人天的开发成本,而如今有了MUSIFY,只需短短的几人天或者十几人天。
在当下GPU生态开发几乎都围绕CUDA进行、专门为其优化的大环境下,能够做到快速简单移植,并确保性能发挥,无疑是最为合理的一条破局之路。
三是开源的MT PyTorch AI框架。
基于摩尔线程MUSA,开发者可以复用PyTorch开源社区的大量模型算子,降低开发成本,并支持种模型的推理,覆盖CV、NLP、TTS语音、AIGC、数字人等多个领域,能够运行ChatGLM、Stable Diffusion、LLaMA等典型的大模型分布式多卡推理。
利用数据并行、模型并行、ZERO等分布式训练技术,MT PyTorch可完成简单基础模型以及典型Transformer结构的NLP语言模型的训练。
四是实时流体仿真工具Catalyst FX的全新版本。
它基于摩尔线程自研多平台物理引擎AlphaCore,可以在Houdini中不改变原有工作流的前提下直接进行流体效果制作,相比原生PyroFX性能提升5-10倍。
AlphaCore已经对DX11 Compute Shader计算版本进行深度优化,在流体力学仿真方面, MTT S80运行Catalyst FX的性能已经达到市场主流显卡的2倍以上。
此外,相比传统的Houdini Vellume的制作流程,摩尔线程GPU加速的柔性体仿真工具VeraFiber,能够将解算效率提升至3-5倍。
目前,Catalyst FX和VeraFiber已经完成了Houdini插件接口的开发,Houdini插件的Beta测试版本将于6月6日开放下载。
应用合作方面,Catalyst FX Houdini版插件已与国内著名电影后期特效制作公司MOREVFX完成交付对接,VeraFiber被网易游戏投资的CG动画制作团队DOVFX 数海文化成功运用于游戏CG片头中复杂角色的布料和毛发仿真。
不熄动画、融创动画、追光动画、平塔工作室等,也都是摩尔线程AlphaCore的生态合作伙伴。
为了汇聚开发者力量、扩大生态,摩尔线程还启动了MUSA社区开发者计划。
摩尔线程将为合作伙伴和开发者提供全套的MUSA开发工具、编程指南、系列教程、开源框架及模型库等资源。
摩尔线程将与第三方社区合作,推动新算法模型、计算系统和平台的开发。