进入Intel 4制程节点 采用分离式模块化设计 英特尔Meteor Lake深度解析

业界
TIME
2023-09-20 10:10
中关村在线
分享

  2023年9月19日23点35分,英特尔正式解禁Meteor Lake处理器各项技术信息,其中包括架构、制程、封装以及AI应用等关键特性。

  Meteor Lake处理器并非14代酷睿,而是英特尔第一代酷睿Ultra处理器,也就是首个采用Intel 4制程工艺的处理器平台。首批Meteor Lake处理器只包含面向笔记本电脑的移动级平台芯片,相关产品预计将于2024年第一季度问世。而英特尔14代酷睿桌面级处理器预计将于10月中上旬发布。

  因此本篇解析内容只涉及Meteor Lake平台的技术信息,不涉及具体的芯片型号以及新品信息,也不涉及14代酷睿桌面级处理器的相关信息。

  在帕特·基辛格回归之后,英特尔在制程方面重新驶入快车道。4年5个制程节点推进是英特尔向业界立下的“军令状”。与此同时,英特尔更加注重PC综合体验的全方位提升,力求在硬件、软件、连接性、拓展性方面实现新的突破。

  因此,伴随Meteor Lake而来的不仅仅有全新的处理器平台,同时还包括Wi-Fi 7、Thunderbolt 5、AI等新技术、新特性。

  Meteor Lake是一款突破性的产品,从PC端到边缘,旨在大规模地提供高能效AI。因此它采用了英特尔首个用用于AI加速的神经网络处理单元NPU,在PC上实现高能效本地推理,这也意味着PC正式成为AI普及的重要平台。

  接下来让我们通过本篇文章,一起走进Intel 4制程时代。

  ·首次采用分离式模块化架构设计

  首先,我们来看看Meteor Lake的架构。

  Meteor Lake采用了全新的分离式模块设计,使整个平台更加灵活,并能够同时适应高性能计算和低功耗长续航需求。

  Meteor Lake包含了GPU图形模块、SOC模块、CPU计算模块以及I/O模块,架构图如下:

  位于最上方的是GPU图形模块,它采用了基于Xe LPG架构打造的Intel ARC锐炫核显,性能较此前锐矩Xe核显提升2倍,并且支持DX12 Ultimate。Meteor Lake的GPU优化了缓存互连,拥有8个GPU核心,128个Vector Engines(矢量引擎),几何图形渲染管线大幅提升,并且新增了8个硬件光追单元,新增了乱序采样功能,进一步增加准确率和性能。

  位于中间的是SOC模块,其中包含了全新的低功率计算岛E-core,内置NPU AI加速引擎,支持Wi-Fi 6E和Wi-Fi 7控制器,支持8K HDR和AV1格式编码的媒体引擎,支持原生HDMI2.1和DP2.1标准的显示单元,并且集成了内存控制器。

  位于右下角的是计算模块,也就是我们熟悉的P-core和E-core,这次的性能核与能效核均采用全新的Intel 4制程工艺打造,并且优化了电源管理和总线带宽。

  位于左下角的是I/O模块,这里主要集成了Thunderbolt4和PCIe5.0控制器,提供出色的连接性。

  在拆分成四大模块之后,图形、计算和I/O模块其实都是大家比较熟悉的,但SOC模块可以说是Meteor Lake最为与众不同的地方。

  以往,Wi-Fi控制器、媒体引擎、显示控制器以及内存控制器等都分布于不同IP之中。如媒体引擎以往是在GPU图形单元之中。而Meteor Lake在基于性能与能效比的考量上,将这些控制器统一集成到了SOC模块中。其在架构设计上遵循了四个原则:

  第一,对计算的密集型IP进行了重新划分,以实现其功率的优化。力求在不影响性能的情况下,大幅提高能效比。

  第二,对I/O进行了扩展,使SOC内部所有主要IP都能享受到带宽支持,所以提供了非常大的系统内存相匹配的带宽。

  第三,在SOC的核心当中引入了超低能耗核心。

  第四,重组了电源管理算法。

  还是以媒体引擎为例。以往,媒体引擎集成在GPU单元中,所以只要媒体引擎在工作,实际上就是整个GPU单元在工作。而GPU在工作的同时,又需要访问内存,因此还要把环形总线打开,这样就会使能耗变高。

  而Meteor Lake将媒体引擎与图形单元拆分,并集成到低功耗SOC中之后,用户在使用媒体引擎相关应用时,如看视频的时候,GPU模块就不需要被打开了。同时,内存控制器也放到了SOC总线上,此时即便需要访问内存,其它几个模块也不需要打开,这样就可以节省功耗,延长电脑的续航能力。此外像I/O模块也是同样的原理。

  SOC模块除了集成以往的Wi-Fi控制器、媒体引擎、显示控制器以及内存控制器之外,NPU和低功率岛E-core可以说是两个全新的单元。

  NPU是英特尔首款低功耗推理专用的人工智能引擎,在CPU与GPU之外,英特尔希望通过拥有更好能效比的NPU去实现对人工智能的不同维度的加速能力。它可以看作是PC普及人工智能的一个标志。在Meteor Lake平台上,如背景虚化、人体追踪、眼角度矫正等基于AI的特性将被放到功耗更低的NPU上去执行,这样可以极大程度降低CPU与GPU的使用,从而让笔记本具有更好的续航能力。NPU支持标准化程序界面,支持商业以及开源API,从而为人工智能应用开发提供了非常友好的开发界面。

  具体到架构层面,NPU主要集成了两个神经计算引擎,它由推理管道和可编程数字信号处理器构成,具备高效灵活的矩阵乘法和卷积,支持激活函数以及数据转换。其内置两个MAC阵列,专门负责矩阵乘法和卷积,支持最佳数据重用,以降低功耗,支持INT8和FP16数据类型。同时拥有单独的激活函数和数据转换模块。此外,它还集成了DMA引擎和暂用内存,可将数据引入软件管理的SRAM,图形编译器会优化调度DMA任务,并支持先进的数据重新布局。

  此外,借助OpenVINO等工具,以及对于AI应用、大模型库的支持,NPU在AI相关应用,如Stable Diffusion等方面,都能提供非常出色的性能支持。NPU使得Meteor Lake整体能效提升多达8倍,它推动了生态系统创新的标准化编程接口,Meteor Lake处理器全系列均支持NPU。

  低功耗岛,顾名思义,它的诉求就是在追求极致性能的前提下去降低能耗,延长电池使用时间,让系统变得更冷更安静。将低工作负载应用直接运行在SOC模块的低功耗E-core上,如Wi-Fi、NPU AI推理、流媒体播放等,可以实现让用户在运行低负载任务时只需要SOC去工作就可以了。此时,计算模块、图形模块都可以挂起睡眠,甚至直接关闭。而当一些重负载任务运行是,如游戏等,其它模块才会按需打开,这样就可以力争做到不浪费每一分能源。

  此外,在实现分离式模块化设计之后,还需要考虑不同模块间的协同工作优化。此时我们需要引入一个概念——Uncore(可以理解为以前的北桥)。

  Meteor Lake在Uncore上进行了电源管理的重新设计,不同模块都有分立的电源管理控制器集成在内部。比如上图所示,在SOC上面,PUNIT单元可以对整个SOC进行电源管理,它通过跟不同模块上的分电源管理器进行沟通,提供一个实时的可扩展的电源管理架构。这个架构为Meteor Lake提供了很多新的电源管理功能,为将来的芯片设计上的电源管理奠定了非常好的基础。

  ·为什么要做分离式的模块化设计?

  看到这里大家可能会有一个疑问,Meteor Lake为什么要做模块化设计?

  其实归根结底,模块化能够让芯片设计更加灵活,甚至可以实现功能模块的定制。同时英特尔在掌握2.5D EMIB和Foveros 3D封装技术后,也更容易实现模块化设计。

  比如想要增加NPU的功能,想要升级显示模块去支持8K显示等等,分离式模块化设计会更好实现。因为只需要把特定功能的模块设计出来,再将其与其它模块封装到一起即可,不需要去完全重新设计整个芯片架构。

  ·如何在不同模块间实现调度?

  其实从高性能异构混合架构开始,线程调度就成为英特尔酷睿处理器的重要因素。Meteor Lake全新的3D高性能混合架构带来的模块化设计,更加需要对此进行调优。因此,英特尔进一步优化了英特尔硬件线程调度器。

  Meteor Lake增强了英特尔硬件线程调度器对操作系统的反馈。在其它IP占用功耗的时候,核心功耗会被动态分配。因此,新的硬件线程调度器会实时更新核心能力,以便更加精准地向操作系统报告整个核心和每个核心的内部能耗比的评估和判断,以提供更加精确的表格给到操作系统。同时在软件层面和系统层面,与英特尔DDT软件结合起来对核心调配做更优的控制。

  其实这里我们需要明确一下英特尔硬件线程调度器的工作原理。它并不是直接控制进程的,或者说它不是去分配进程到某一个具体核心上。而是介于处理器和Windows操作系统之间的一个“评分系统”。

  它可以向Windows系统实时提供P-Core、E-Core、LP E-Core的硬件能力,然后反馈给操作系统线程调度器,最终由系统根据每个核心的评分,按照负载将任务分配到特定核心上去执行。

  如下图所示,英特尔与微软做了一张这样的“评分”表格,其中包含四种颜色,对应不同分类等级。它根据P-Core、E-Core以及LP E-Core的IPC,就是每个时钟能执行多少条指令的能力来进行分类。

  比如Class0代表的是P-Core、E-Core在执行这种指令,每时钟执行的指令数量基本上一致,就归为Class0。

  右边的Class1代表P-Core在每一个时钟内执行的指令数量大于由E-Core来执行,则会被归为Class1,比如一些浮点运算的指令就会落在Class1的范围内。

  Class2代表P-Core在每个时钟内执行的指令数量远远大于由E-Core执行,比如一些AI计算,通常会归到Class2当中。

  最左边的Class3是极少部分指令会落在这一等级上,这里表明Class3的指令中,E-Core每个时钟周期执行的指令数反而会高于P-Core。

  表格会对每一个核心打两个分数(EE和Perf分),分数最高的就代表着英特尔硬件线程调度器对Windows的推荐优先级最高。之后Windows会依据推荐将任务负载放到分数最高的核心上来执行。

  因此,Meteor Lake的能效设计,包括硬件线程调度器等等,其实与Windows系统有着密不可分的关系。实际上英特尔、微软共同设计实现了线程调度器这种反馈和控制的机制,然后去做处理器的功耗管理优化,并且去实现功率和性能的最大限度的提高。

  因此,Meteor Lake分离式模块化设计最终能否真正兼顾高性能与低功耗,硬件线程调度器与Windows系统是极其重要的环节。

  ·Intel 4制程工艺简化制造流程,良率显著提升

  在4年5个制程节点中,Intel 4对于英特尔而言极为重要。因为Intel 4取得成功,就意味着从技术层面英特尔可以非常好地步进到接下来的Intel 3、Intel 20A和Intel 18A三个制程节点。

  Intel 4的主要特性包括:

  其一,广泛采用EUV光刻技术,在满足DIE变小的同时,大幅度简化了制造流程。

  其二,CPU高性能逻辑库面积相比Intel 7缩减约2倍。

  其三,相比Intel 7,带来了20%的性能和能效比提升,

  其四,实现了更好的频率和电压平衡,

  其五,进一步加大了MIM密度,以提供更高效的底层供电。

  接下来我们对这五项特性逐一作出分析。

  Intel 4制程工艺广泛使用了EVU光刻技术,降低3-倍的处理步骤。从下图可以看到,在使用EUV技术的情况下,掩膜总数和工艺步骤总数分别比未使用EUV的Intel 7制程下降20%和5%。而在微缩工艺方面的提升也带来了晶体管密度的整体提升。

  Intel 4制程带来了整个DIE的集成度变化。下图可以看到,Intel 7采用408库高度,而Intel 4切换到了240库高度。约2倍缩减分别来自于接触式栅极间距缩减0.83、鳍片间距缩减0.88、M0间距缩减0.75以及高性能库高度缩减0.59。

  针对CPU,对比Intel 7以及Intel 4带有6VT和带有8VT的功率与频率情况,Intel 4实现了更低功率情况下更好的频率表现,相比Intel 7有20%的能效提升。

  同时,Meteor Lake连接层针对高性能计算应用进行优化的18层金属堆栈上也采用了新技术,广泛借助EUV,通过四重自动成像工艺,实现了非常好的层数和密度提升,为布线层也提供了非常好的技术支持。

  除了降低间距之外,如何降低电阻提升导电性的同时,确保更长的电迁移寿命也是新制程工艺的一项关键技术指标。在Intel 7制程节点,英特尔采用了不同的特殊金属层去解决这一问题。而Intel 4则是采用了增强型的铜金属(钽/钴与纯铜)工艺,实现电阻降低并延长电迁移寿命。

  此外,EUV技术使得Intel 4在连接结构上面变的更加标准化。如下图所示,对比Intel 7和Intel 4,会发现在Intel 7金属层有很多非标准、非单一的连接模式,而EUV技术使得Intel 4做的更加统一。这件事的意义在于可以使布局、单元摆放、时钟数统一以及布线等方面实现高效的自动化设计。

  MIM电容器可提供卓越的供电能力,相对于Intel 7制程工艺,Intel 4的MIM cap密度提高了约2倍,达到了376fF/um2。

  基于更加细腻的微缩工艺、更加简化的制造步骤、更加标准化的连接模式以及电迁移寿命延长和更加健康的电磁可靠性,Intel 4制程工艺获得了极高的良率,总体超过了优化后的14nm和10nm制程水准线。这也是为什么Intel 4的成功,对于未来快速过渡到Intel3、Intel 20A和Intel 18A就越顺畅。

  ·Foveros 3D封装让模块化设计实现更好的连接

  架构与制程之后,我们再来聊聊Meteor Lake的封装技术。

  前面我们提到,Meteor Lake采用了全新的分离式模块化设计,而要让每个模块之间实现更好的连接,实现更加高效的协同性能,就需要通过更加先进的封装工艺来实现。而Meteor Lake所使用的,就是经过多年验证的Foveros 3D封装技术,同时也在不同模块上使用了2.5D EMIB封装技术。

  此前,Foveros 3D封装技术主要被应用在至强处理器、高密度计算GPU以及FPGA上,而Meteor Lake是英特尔首次大规模将Foveros 3D封装技术应用在消费级市场的产品上。

  通过2.5D和3D的混合封装,可以实现更高密度的DIE与DIE的封装,提供不同节点更复杂的连接,同时可以具备更好的低功耗以及高性能的连接。

  那么具体到Meteor Lake,是如何实现模块化封装的呢?

  首先,晶圆厂制造好晶圆之后,会将其运输到封装测试工厂进行分割和测试。分割晶片完成测试之后,确保只有经过认证的良好晶片最终进入到Foveros组装流程中。

  接下来,封装厂会将顶部晶片与基础晶圆通过高温进行贴合,创建出晶片复合体,之后再将贴合后的晶圆二次分割成封装所需要的各个模块,并通过环氧树脂贴合到基板上,最后封上金属散热器,即可大批量完成Meteor Lake处理器的封装制造。之后再通过系统级的测试验证,将没有任何问题的成品交付到OEM手中进行最终的产品组装。

  在封装层面,Foveros3D封装技术,带来更好的叠加性以及更高密度。由于在芯片内就已经实现了极低功耗和高密度晶片连接,最小化了分区开销,所以能够为处理器芯片的每个区块选择理想的芯片工艺,且每块晶圆可获得10%以上的芯片数量提升,从而降低成本、提高性能、提升晶圆良率。

  2.5D EMIB技术则主要被用于GPU封装。其底层通过2.5D实现计算单元模组的DIE与DIE互连,密度更高,间距更小。同时混合使用3D封装技术,将上层DIE与基础层的DIE连接到一起,进一步提升密度的同时,可以在芯片层级降低功耗。

  其实从前面的架构示意图可以看到,Meteor Lake大体分为4个模块,但其实每个模块中又包含了功能不同的小模块,这些大大小小的模块,其实就是通过2.5D和3D封装技术集成到一起的。这就像盖房子,一砖一瓦的横向与纵向堆叠,最终构成一整个建筑主体。

  ·结语

  总体来说,英特尔Meteor Lake是第一个基于Intel 4制程工艺打造的处理器平台,它在架构层面采用了创新的分离式模块化设计,并首次将Foveros 3D封装工艺带到消费级产品上来。它改进了英特尔硬件线程调度器,优化了模块间的电源管理,借助低功耗的SOC模块可以让低负载任务运行在其上的同时,睡眠甚至关闭GPU和CPU模块,以达到降低整体功耗,提升续航能力的需求。

  Meteor Lake所对应的产品是第一代酷睿Ultra移动级处理器,并不是第14代酷睿处理器,预计发售档期在2024年第一季度。

THE END
免责声明:本文系转载,版权归原作者所有;刊载之目的为传播更多信息,如内容不适请及时通知我们。

相关热点

  华为手机真的是越来越好了,至少Mate 60也助推了一大波。  供应链的权威市调机构数据显示,W36(9.4-9.10),华为以17%的销量市占率夺得中国智能手机市场第二宝座。  尽...
手机
  财联社9月20日讯,华为全联接大会2023将于今日正式在上海举行,这是HDC 2023开发者大会之后华为又一个重要大会。  本次大会为期三天(9月20日至22日),被视作进一步了解...
互联网

相关推荐

1
3