正文内容 评论(0)
日前,PQ Labs (品奇数码) 发布了基于CPU和 ASIC芯片的AI加速计算技术。与目前市面上主流的GPU加速技术不同,PQ Labs (品奇数码) 发布的这项人工智能加速技术无需成本高昂的GPU,在通用 CPU上即可获得数倍于GPU的加速性能。
图表 1运行速度比较
MagicAI (Magic Tiny Yolo) 在 Intel i7 CPU 下运行帧率达到 718 FPS,是 Titan X / 1080Ti 的 3.5倍,是 Intel MKL 方案的 199倍。
为什么数倍甚至数十倍的AI运算效率?
人工智能技术无疑是当前的热点名词,迅速改变着 交通运输、健康医疗、制造、机器人、AR/VR 等行业。但是毫无疑问,机器依旧无法像人类那样快速、敏捷且毫不费力的执行简单的任务。
举例来说,人类的大脑可以毫不费力的指导我们的行走,识别方向以及识别物体,这种 “智能” 对我们人类来说,已经成为 “本能”, 无需任何 “刻意思考”。这种 “本能” 对我们 77 亿人类同胞而言,已经习以为常。
然而,世界上有超过 20 亿台电脑运行在世界各地,有上百亿台移动终端和 IoT 设备运行在世界各地,其中绝大部分是没有这种 “智能” 的,非常少的一部分设备,可以运行简单的 人工智能 应用,比如 “物体识别” 之类,然而这些设备需要在昂贵的高端显卡的支持下,才能实现这种 "智能"。
有没有除 GPU加速之外其他的方案?
由于历史原因,整个业界和学术界在人工智能方面的研究都是建立基于图形显卡的编程模型上(特指 NVIDIA GPU 显卡,AMD GPU 缺少相关的软件及算法)。除此之外,市场上还有其他的 AI 芯片,但大都基于类似的 AI 模型和优化策略。
”人工智能的科技树或许正沿着一条低效率的方向展开,世界上存在着其他的技术路径值得我们去探索,是否会有比现状更好的技术实现,这就是 PQ Labs MagicAI 技术的发挥空间。” PQ Labs CEO 陆飞博士表示,他同时也是 MagicAI 技术的核心研发人员。
MagicAI 代表着另一种技术路径
MagicNet 技术拥有非常快的运行速度:可以在 Intel i7 处理器上,以 718 FPS 的帧率运行 物体识别 程序而无需降低识别精度,而在同样 CPU 上直接运行 Tiny Yolo 则仅仅有 3.6 FPS 的帧率。MagiNet(Magic Tiny Yolo)的计算速度达到了 Intel MKL 的199倍,甚至达到了经过 GPU (Titan X / 1080Ti) 加速的 Tiny Yolo 3.5倍的运行速度。
MagicAI 技术的设计和开发是从深度学习最底层的数学基础开始的,所有数学运算都被重新优化设计,重新封装在一个叫做 “MagicCompute” 的运算库内,以替代 NVIDIA CUDA,cuDNN 及 Intel MKL,并实现运行速度的提升。例如, “卷积运算” (所有深度学习模型的基础运算)由 “MagicConvolution” 来执行,就可以获得性能的飞速提升。
MagicAI 的运行速度提升同样来自于其独特的骨干网络模型,运行速度要比 MobileNet V2、ShuffleNet V2 等轻量化模型更快,并且准确度更高。将 Yolo、SSD 等模型的 骨干网络 替换为 MagicNet,就成了全新的网络:Magic-Yolo 和 Magic-SSD,比原来的网络提速 199倍。
MagicAI 从设计之初就与众不同,目前人工智能的产业界和学术界依然沿用深度学习技术在其非常早年间定义下来的训练方式,严重依赖基于ImageNet Classification 的训练和调优,然后再使用 ImageNet 的模型作为预训练模型,通过 “知识迁移” 来训练并获取其他任务的能力(比如物体识别)。
这种传统模式在过去并没有什么问题,但是 MagicCompute 的做法有所不同,我们认为 对 ImageNet Classification 的调优并不是最优解,有时优秀的 Classification 结果反而会对其他任务的精度带来负面影响。 MagicNet 选择重新设计新的训练方式来解决这个问题,这进一步提升了 MagicCompute 的准确率和计算效率。
MagicAI 完全支持现有的模型和框架
MagicAI 技术新颖且速度飞快,但是这并不意味选择 MagicAI 就意味着放弃在现有的技术模型(TensorFlow, Caffe, Pytorch等)上花费的时间和精力。MagicAI 可以向后兼容,支持已有的模型,无需重新训练或编程,就可以让现有模型运行的更快。