ARM今天发布了全新的旗舰级CPU Cortex-A73,代号Artemis,10nm FinFET工艺下面积还不到0.65平方毫米,而频率可高达2.8GHz,峰值性能、持续性能都可比A72提升最多30%,华为海思、三星电子、联发科、Marvell等都已经签署授权。
【ARM高端CPU简史:发热是个大问题】
在深入了解A73之前,我们先来回顾一下ARM这几年的高端移动CPU,首先是A9。
A9可以说是里程碑式的产品,奠定了ARM今后多年的坚实基础,也诞生了大量优秀处理器芯片,比如苹果A5、三星Exynos 4210/4412、德州仪器OMAP4430/4460。
之后是A15,IPC(每时钟周期在指令数)提升是Cortex-A系列历史上最大的,性能很猛,代价就是功耗也高了,三星的Exynos 5250/5410就备受困扰。
为了解决性能与功耗的平衡问题,ARM提出了big.LITTLE混合架构,也诞生了海思麒麟920、三星Exynos 5422这样一些成功产品。
A57是首个64位移动大核心,而在苹果A7的刺激下,整合移动行业向64位飞奔,但是A57核心太大了,功耗和发热难以控制,结果要么就是骁龙810这种硬上A75的因为过热而陷入麻烦,要么就是麒麟930、联发科Helio X10这样只敢上A53小核心的性能还不如前辈。
三星此时异军突起,Exynos 5433/7420成功控制了A57,再加上三星工艺的进步,一时间霸气侧漏。
A72虽然只是A57的改良版,但效果很好,比如说骁龙650/652这样的中端产品,已经可以逼近甚至超越上代旗舰级的骁龙808/810。
【A73身世揭秘:和A72无关!】
A15、A57、A72架构上都属于Austin(奥斯汀),A5、A7、A53均属于Cambridge(剑桥),A12、A17和今天的A73则都来自于Sophia(索菲亚)——位于法国南部风景迷人地中海之滨的索菲亚科技园区(Sophia Antipolis),是欧洲最大的科技园区,ARM CPU的法国设计团队就在那儿。
从产品定位上看,A73显然要取代A72,但是从技术层面讲,它其实是A17的进化版本,整体微架构、流水线、宽度设计都与之类似,反而和A72差别很大。
最明显的就是,A72采用了三发射设计,A73则是双发射的,但加上其他改进,结果就是性能高于A72、功耗低于A72。
显然,ARM充分意识到了移动处理器能效的重要性,宣传A73的时候也特别强调其持续性能,即能够长期稳定运行的表现。
【A73架构解析:性能与功耗兼得】
为了便于理解A73的不同,我们先来看看A72的架构图:
15+级乱序流水线,128位预取,3宽度解码,每时钟周期可分派最多5个微操,满足最多7个发射队列,进入8个执行流水线。
A73十分类似A17,因为顺序前端的优化流水线短得多,预取阶段也只有4级深度(A72 5级),整个流水线深度也才11-12级。
相比于A17,它将整体最大分配率从4个微操增加到了6个。NEON发射序列仍然是2个微操,但是整数部分翻番到了4个。
浮点流水线还是2条,预取监视器也是1个,但是AGU部分可同时执行载入和存储操作。整数流水线则分成了2个复杂的ALU,分别负责乘法和除法。
A73继承了A17的架构理念,优化流水线、资源和接口,以求在最低功耗下获得最大性能,并且特别注意了32/64位架构之间的平衡。
A73依然坚持四核心理念,即每个簇可拥有1-4个核心,然后使用SCU单元互联各个簇。二级缓存最多8MB,等同于A17而两倍于A72,但相信多数芯片厂商都会选择1-2MB。
A15/57/72还肩负着冲击工业、大规模服务器系统的重任,A73就简单了,只针对消费级市场,这让它轻松了不少,比如去掉了AMBA5 CHI接口,仅支持AMBA4 ACE,一级缓存也不再支持ECC。
内存系统的变化也异常重要,双发射载入/存储单元扮演了大角色,提高了发射率。
数据缓存寻址机制从PIPT(物理索引物理标签)变成了VIPT(虚拟索引物理标签),数据缓存最大64KB,翻了一番,号称仅此就能提升4%的性能。
一级和二级缓存的预取器也有了大幅改进,再加上其他种种完善,号称外部内存带宽可提升最多20%。
更深入的架构细节我们暂时就不谈了,技术性太强,一般用户也无需关心,只要知道A73的成果就行了:
相比A72,典型移动应用性能提升10%,SIMD媒体和计算性能提升5%,内存吞吐能力提升15%。
整数应用功耗节省最多30%,浮点和二级缓存应用节省最多25%。同等工艺频率下至少节省20%。
迄今最小的高端核心,同等工艺、性能下比A72小最多25%。
扩展性强,10nm FinFET工艺下再为性能优化一番,如果是四核心、2.8GHz频率、64KB/64KB一级缓存、2MB二级缓存,核心面积只需大约5平方毫米,功耗不到0.75W。
28nm HPC工艺下,双核心、2.0GHz频率、32KB/64KB一级缓存、1MB二级缓存,核心面积约6平方毫米。
看这样子,16nm下A73核心就应该能达到2.8GHz,10nm有望突破3GHz。
相比于四大A53四小A53的八核心,两大A73四小53组成六核心后,可以在核心面积相同的情况下,性能提升30%,最佳响应时间提升90%!