正文内容 评论(0)
6.2 高通S4时代来临
在四核时代已经揭幕的现在,高通自然不能落后,他们不仅要推出新的四核产品,还要全线更新28nm制程,并且最重要的就是:更新架构,好在高通已经公布了这些情况的细节。
高通已经推出了第二代Snapdragon的心脏:全新的Krait架构,这也是所有Snapdragon S4系列SoC的核心,它在Scorpion的基础上作出了不少改进。
在架构的前端方面,Krait显然要更“宽”,一个时钟周期可以执行三次fetch与decode操作。每个Decoder都相当于ARM11的single issue能力模块,对比前代Scorpion的2-wide,能力也提高了50%。后端执行单元方面则是简单的扩张,从Scorpion的三个增加到了七个,可以并行执行4条指令。而在指令执行阶段,Krait终于进入了Cortex-A9阶段,可实现完全乱序执行。
|
核心架构比较 |
|||||
|
|
ARM11 |
ARM Cortex-A8 |
ARM Cortex-A9 |
高通Scorpion |
高通Krait |
|
Decode能力 |
Single-issue |
2-wide |
2-wide |
2-wide |
3-wide |
|
流水线长度 |
8级 |
13级 |
8级 |
10级 |
11级 |
|
乱序执行 |
否 |
否 |
是 |
部分 |
是 |
|
FPU |
VFP11(流水线化) |
VFPv3(非流水线化) |
可选VFPv3-D16(流水线化) |
VFPv3(流水线化) |
VFPv3(流水线化) |
|
NEON视频解码模块 |
无 |
有(64bit) |
可选MPE(64bit) |
有(128bit) |
有(128bit) |
|
制造工艺 |
90nm |
65nm/45nm |
40nm |
45nm |
28nm |
|
典型时钟频率 |
412MHz |
600MHz/1GHz |
1.2GHz |
1GHz |
1.5GHz |
流水线方面,Krait的整数流水线由Scorpion的10级略微提高至11级,对比Cortex-A15的15级流水线,高通的设计含有更多的定制化逻辑模块,同样使得处理器的频率容易提升。
此外,Krait对比Scorpion还支持在A15中才加入的新虚拟化指令集和40bit内存寻址。双核型号的二级缓存也从512KB升至1MB。一个恰当的类比例子是,ARM Cortex-A8时代的设计就像当年的P54C Pentium,而Krait的完全乱序支持就像P6 Pentium Pro,整体设计则是把SoC带入了Pentium II的时代。
在后端完全乱序执行引擎的加持下,Krait架构的预期性能将高于Intel 45nm Atom。2012年面世的部分智能手机可能将拥有超过采用Banias核心Pentium M处理器的初代“迅驰”笔记本的性能。
通常ARM核心性能是用老旧的DMIPS(Dhrystone Millions of Instructions per Second)来衡量,这个老旧的整数性能测试基本与多数读者同龄但在桌面市场早已被弃之不用。但对于架构相同点颇多的各ARM系核心还是有一些意义的。
|
ARM单核DMIPS/每MHz性能比较 |
|||||
|
|
ARM11 |
ARM Cortex-A8 |
ARM Cortex-A9 |
高通Scorpion |
高通Krait |
|
DMIPS/MHz |
1.25 |
2.0 |
2.5 |
2.1 |
3.3 |
Krait的DMIPS/MHz性能为3.3,比同频的Cortex A9快上约30%。预计Krait在发布时将拥有超过目前市面上A9架构CPU约20-25%的性能。依高通推出的频率版本不同,新的智能手机领先市场上A9架构CPU机种的性能达30-50%也不奇怪。目前ARM还没有公布Cortex-A15的性能数据,业界传言在3.5 DMIPS/MHz左右。(从设计角度来看,高通两代核心的定位差不多是这样,Scorpion在A8与A9之间,Krait在A9与A15之间)
在ARM架构SoC中,所有NEON指令都由专用单元去处理。Krait也不例外,高通将这代NEON专用模块命名为VeNum,吞吐容量比之前的Scorpion提高约50%,可同时处理3个NEON指令。高通处理器的NEON数据位宽均为128bit,以上也是为什么采用高通SoC的智能设备解码视频流能力强的原因。
高通Krait核心具有三级缓存结构,低级别的两级缓存为每个核心独享,而第三级别缓存为所有核心共享,高通将每个级别缓存按级别从低至高命名为L0、L1和L2。每个Krait核心具有8KB L0缓存(4KB指令+4KB数据)。L0缓存可在单周期中直接存取,高通称L0缓存有85%的高命中率,使得CPU不必经常访问L1缓存以节省能耗。高通采用的缓存层次结构为独家设计,L0缓存中的数据不必在L1中留有副本。每个核心还具有32KB L1缓存(16KB指令+16KB数据),采用4路组相联设计,同样可以在单周期中访问。L2缓存为所有核心共享,双核Krait中L2容量为1MB,相比之下Scorpion中为512KB;四核Krait容量将进一步上升到2MB,Krait的L2缓存为8路组相联设计。
|
Krait的缓存结构 |
|||
|
|
容量 |
架构 |
频率 |
|
L0 |
4KB+4KB |
直接存取 |
与核心相同 |
|
L1 |
16KB+16KB |
4路 |
与核心相同 |
|
L2 |
1MB(双核)/2MB(四核) |
8路 |
最大1.3GHz |
L0与L1缓存频率与核心相同,电压也一样。而L2缓存为省电采用独立设计方式,拥有自己的运行频率,将根据任务负载实时调整,最大为1.3GHz。
内存控制器部分,尽管上代Scorpion内置双通道LPDDR2内存控制器,但通常情况下内存只能利用到其中一条通道。要利用完整的两条32bit通道,必须在PCB上采用两块32bit DRAM封装的形式。由于高通单通道控制器的效率不低,很多OEM厂商都弃另外一通道不用。而Krait解除了这一限制,现在OEM常常可以简单把两个32bit DRAM堆叠在一个封装内即可完整利用双32bit内存控制器,预计在性能上对比Scorpion会有不少提升。
Krait将是世界首个采用28nm制程的智能手机/平板电脑CPU,高通目前的制造合作方包括台积电与GlobalFoundries两家,而前者将制造首个Krait芯片也是制造主力。因高通考虑采用TSMC的非HKMG工艺会有更小的风险,Krait前期将采用台积电标准28nm LP工艺制造。在高通白皮书PDF给出的对比图中,Krait核心MSM8960的对比对象为NVIDIA采用40nm LPG混合工艺的Kal-El。高通对于制造工艺的态度是,40nm G晶体管只有在全程高频时才有意义,其余多余情况下纯LP工艺晶体管三个更有优势。
和Scorpion一样,Krait每个核心也有自己的独立频率/电压控制机能。高通称这种设计可在多种不同负载率下拥有功耗优势。
首个使用Krait核心的高通SoC为双核1.5GHz的MSM8960,明年该CPU预计将推出制程进一步改进的版本,频率可达1.7-2.0GHz。高通称当Krait与Scorpion核心电压同为1.05V时,Krait的极限频率为1.7GHz,相比之下Scorpion最多只能达到1.55GHz;此时运行相同的某个任务时Krait的功耗为265mW,Scorpion 432mW。虽然满载时Krait可能会比Scorpion消耗更多的电能,但总体上来说Krait运行任务效率高,进入待机状态时功耗下降速度快,总体看来电源管理方面对比上代Scorpion还是有所提高。以此推算,智能手机与平板电脑的实际续航即使没有改进,最坏情况也是与之前持平。
L0与L1缓存频率与核心相同,电压也一样。而L2缓存为省电采用独立设计方式,拥有自己的运行频率,将根据任务负载实时调整,最大为1.3GHz。
Snapdragon S4处理器已经公布的有:双核MSM8960及8x60系列、双核MSM8930及MSM8x30系列、四核APQ8064,全部采用最新架构。
该系列首款产品MSM8960目前已经进入生产,该处理器基于台积电28nm LP工艺制程,拥有2个Krait核心,运行于1.5-1.7GHz。MSM8960整合Adreno 225GPU与双通道LPDDR2内存控制器,内存频率最高500MHz(等效1GHz),支持2000万像素摄像头。此外作为MSM系列的龙头产品还整合有高通自家3G/4G/LTE全模基带。
之前高通向来很少透露SoC中集成的GPU细节,从MSM8960开始这一情况得到了改变:该SoC采用的Adreno 225 GPU是明年Krait改进版采用新架构的Adreno 3xx前最后一代老架构产品。
从ALU上来看,Adreno 225的规格等于Adreno 205的2倍。所有Adreno 2xx家族图形核心均为DirectX 9.0级别,Adreno 225与其他主流SoC中采用的图形核心对比如下:
|
常见SoC芯片GPU比较 |
|||||||
|
|
Adreno 225 |
PowerVR SGX540 |
PowerVR SGX543 |
PowerVR SGX543MP2 |
Mali-400 MP4 |
GeForce ULP |
GeForce++ (Kal-El) |
|
SIMD名称 |
- |
USSE |
USSE2 |
USSE2 |
Core |
Core |
Core |
|
SIMD对应数据流数量 |
8 |
4 |
4 |
8 |
4+1 |
8 |
12 |
|
每SIMD的MAD数量 |
4 |
2 |
4 |
4 |
4/2 |
1 |
? |
|
总MAD |
32 |
8 |
16 |
32 |
18 |
8 |
? |
|
运算能力(GFLOPS)@200MHz |
12.8 |
3.2 |
6.4 |
12.8 |
7.2 |
3.2 |
? |
|
运算能力(GFLOPS)@300MHz |
19.2 |
4.8 |
9.6 |
19.2 |
10.8 |
4.8 |
? |
从表中可以看出Adreno 225的理论运算能力与iPad2中苹果A5 SoC的PowerVR SGX543MP2相当。此外,与MSM8660中266MHz的Adreno 220相比,Adreno 225得益于28nm制程的优势,频率提升到400MHz。另外,高通还称Adreno 225在驱动层面上做出了显著的改进。两点结合使得Adreno 225要比Adreno 220快上50%。此外,目前Adreno 225还只支持Direct3D feature level 9.3级别的效果。
MSM8960支持几乎世界所有网络制式,它集成的基带芯片基于高通第二代(3GPP rel.9)LTE MODEM,与MDM9x15中的几乎一样。这也是苹果为什么还没有推出LTE版iPhone的原因(等待高通28nm基带芯片)。以下是Snapdragon S4 MSM8960支持的所有制式:
- FDD-LTE(100Mbps下行/50Mbps上行)
- TDD-LTE(68Mbps下行/17Mbps上行)
- UMTS/HSPA+ (42Mbps下行/11Mbps上行)
- CDMA2000 1x Advanced,EVDO Rev.B (14.7Mbps下行/5.4Mbps上行)
- TD-SCDMA(4.2Mbps下行/2.2Mbps上行)
- GSM/GPRS/EDGE
此外,MSM8960中的基带部分比起高通现有LTE MODEM的MDM9600,还接近于完整支持VoLTE,即语音通过LTE网络传输。另外802.11 b/g/n WiFi、蓝牙和GPS功能当然也在新的SoC支持范围内。
已经确认使用该款处理器的产品包括:HTC One X LTE/One XL、联想IdeaTab S2、华硕Padfone、华为Ascend P LTE、Ascend D LTE。
8x60系列的MSM8660A与MSM8260A,与MSM8960的唯一区别在于集成的基带不支持LTE。还有不整合任何基带的APQ8060A。
定位稍低的MSM8930拥有2个Krait核心,运行频率最高1.2GHz。内存控制器降为单通道LPDDR2但频率提升为533MHz(等效1066MHz),最大支持1350万像素摄像头。此外,MSM8930还将集成高通新一代GPU Adreno 305,正式亮相时间相应推后。
MSM8930也支持LTE,如果厂商不需要用到相应部分想降低成本自然可以选择8x30系列的MSM8630、MSM8230或不含基带的APQ8030。
面向低端的8x27系列中,MSM8627与MSM8227也是双核Krait架构,运行频率最大1GHz,采用单通道LPDDR2 400MHz控制器(等效800MHz),视频解码NEON模块能力降至720p,搭载的GPU可能是和MSM8960相同的Adreno 225。
最强的APQ8064四核SoC目前频率限定为1.7GHz,不过高通以前已经透露可能会提升至最高2.5GHz。此外,APQ8064集成DDR3-1066内存控制器,以及on-die SATA和PCI-E主控,内置有下一代的Adreno 320 GPU核心。


