计算机硬件前沿技术综述

2019-12-23 07:24李炳臻孙涛姜文志

计算机时代 2019年12期

关键词：存储设备性能指标

李炳臻　孙涛　姜文志

摘要：文章以目前市场上处理速度最快的CPU、存取速度最快的存储设备以及四类人工智能芯片为研究对象，分析其性能指标、架构特点以及四类AI芯片的发展历程和优缺点，并指出了下一阶段计算机硬件技术的发展趋势。

关键词： CPU; 存储设备; AI芯片; 性能指标

中图分类号：TP399 文献标志码：A 文章编号：1006-8228（2019）12-15-04

Overview of the frontier technology of computer hardware

Li Bingzhen， Sun Tao， Jiang Wenzhi

（Naval Aeronautical University， Yantai， Shandong 264001， China）

Abstract： This paper takes the CPU with the fastest processing speed， the storage device with the fastest access speed and four kinds of AI chips as the research object， analyzes their performance indexes， architecture characteristics， and the development process and advantages and disadvantages of four kinds of AI chips， and points out the development trend of computer hardware technology in the next stage.

Key words： CPU; storage device; AI chips; performance index

1 现阶段处理速度最快的CPU

1.1 英特尔公司的酷睿i9

2018年6月，英特尔发布了一款限量款CPU i7-8086K，默认主频7.24GHz[1]。这款i7-8086K用以纪念x86架构处理器——8086处理器，全球限量8086颗，不仅珍贵，配置也十分丰富。作为首款默认主频5Ghz的台式机处理器，采用6核心12线程设计，在液氮加持下，最高可超频至7.24GHz。此外， 2018年10月Intel在美国发布了新一代的酷睿X系列处理器，从8核到18核，覆盖了发烧级消费市场和内容创作市场[2]。从中选取性能最佳的型号，性能对比如表1所示。

i9-9980XE为18核36线程设计，拥有24.75MB大小的三级缓存，最高提供68条PCIe 3.0通道，使用回钎焊作为导热介质，基础频率为3.0GHz，Turbo Boost Max 3.0技术能让单核心频率最高达到4.5GHz。

1.2 AMD第二代锐龙CPU

AMD在2018年8月发布了第二代锐龙ThreadRipper，被爱好者称为“线程撕裂者”——32核心64线程[3]，如图1所示。而Intel系列最先进的是28核心56线程，对比足以可见此款CPU性能的强大。

此款CPU共有2990WX与2550WX两种版本，性能最为强劲的是2990WX，32核64线程，2950WX为16核32线程，下面我们将以2990WX为例，分析一下这款CPU的性能特性。

第二代AMD锐龙Threadripper处理器采用了升级后的Zen+架构以及升级后的GlobalFoundries 12nm（12LP）制造工艺，使同频性能提升了大约3%，内存延迟降低11%，内存频率提高至2933MHz。单线程时，主频最高可加速到4.35GHz，之后随着线程增多，频率稳步下降，16线程时仍能保持在3.7GHz。很多时候，虽然处理器标称的加速频率很高，但难以长时间坚持，往往几十秒甚至几秒钟就会掉下来，而且随着线程数量的增多，加速也会十分困难。而第二代Threadripper处理器在核心线程数量大增的同时，依然保持了强劲的多线程加速能力，这无疑是很难能可贵的。

2990WX内部共有四个Die，分别为八个物理核心，但只有两个Die分别负责对外连接两个内存通道、32条PCI-E 3.0通道，另外两个Die称之为Compute Die，只负责计算。同时，每两个Die之间都有一条Infinity Fabric，可以保证两个Die之间的物理核心直接沟通，用以降低延迟，内部结构如图2所示。

此外，2019年5月27日，AMD首次公布了基于7nm制程的高性能第三代銳龙处理器，预计将于2019年7月份发售，包括多款高性能处理器以及显卡，将提供顶级性能。其中处理器旗舰型号为12核心24线程的锐龙93900X，基于全新AMD Zen 2 x86核心架构，采用世界领先的7nm制程，功耗105W，基准频率3.8GHz，缓存70MB，性能强劲，有望成为新的性能标杆。

2 现阶段速度最快的存储设备

2.1 内存

目前市场上最快的内存条是芝奇在2017年10月发布的DDR4 SO-DIMM，容量32GB，频率3800MHz。所采用的内存芯片是三星高端B-die IC颗粒，同时还是4通道8GBx4构成总容量32GB套装，时序控制在18-18-18-38，电压为1.35V。专门针对中高端发烧级CPU打造，可以与酷睿i9系列等中高端CPU完美配合[4]。共有三个版本，均已上市，规格对比如表2所示。

而在2018年10月，Cadence和镁光公布了自己的DDR5内存研发进度，两家厂商一起开始研发16GB DDR5的产品，计划在2019年年底前实现量产目标。DDR5的主要特性是大芯片容量，高性能低功耗，而且DDR5将改进命令总线效率，拥有更好的刷新方案及增加的存储体组以获得额外的性能。

对于内存条，性能主要反映在两个方面，第一个是内存即容量大小，第二是频率，代表着该内存所能达到的最高工作频率，以MHz为计量单位，主频越高表示内存速度越快，而DDR5的工作频率高达4800MHz以上，最高频率达到6400MHz，是DDR4的两倍之多，设计目标I/O带宽6.4Gbps，总带宽51.2GB/s，预取位数16bit，均比DDR4翻番。

2.2 固态硬盘

英特尔公司与2018年10月公布的傲腾 905P SSD（960GB）是现阶段存取速度最快的固态硬盘，可达到2600MB/s的连续读取速度和2200MB/s的连续写入速度。这款价值1299美元的产品主宰了其他顶级品牌[5]，如三星970 EVO（1TB）及的傲腾900P SSD。905P比其竞争对手900P（480GB）快11%，比三星970 EVO（1TB）快300%以上。

3 人工智能领域涉及到的几类最快芯片

3.1 AI芯片及其发展历程

人工智能是从计算机技术衍生出的一个领域，其中各类芯片扮演着人的大脑的角色，可以说，AI 芯片是人工智能时代的技术核心之一，其决定了平台的基础架构和发展生态。目前在人工智能领域，应用比较多的芯片分别是通用芯片（GPU）、半定制化芯片（FPGA）、全定制化芯片（ASIC）与类脑芯片，它们的发展历程如图3所示。

当前阶段，GPU配合CPU仍然是AI芯片的主流，随着视觉、语音、深度学习算法在FPGA以及ASIC芯片上的不断优化，此两者正逐步占有更多的市场份额。从长远来看，人工智能类脑神经芯片是发展的路径和方向[6]。下面介绍四类芯片的特点。

3.2 几类主要的人工智能芯片

GPU（Graphics Processing Unit）图像处理器，将所需要显示的信息进行转换驱动，并向显示器提供行扫描信号，控制显示器显示，是连接显示器和个人电脑主板的重要元件。采取单指令、多数据处理，拥有众多的计算单元和超长流水线，通用性强、速度快、效率高，特别适合深度学习训练阶段，但无法单独使用，必须由CPU调用。在应用深度学习算法时，有三个方面的局限：①无法充分发挥并行计算优势，深度学习包含训练和推断两个环节，GPU在训练环节非常高效，但在推断环节效率一般;②无法灵活配置硬件结构，GPU的硬件结构相对固定，无法像FPGA一样灵活配制硬件结构;③运行算法能效低于FPGA。

FPGA即现场可编程门阵列，专用集成电路（ASIC）中的一种半定制电路，适用于分析多指令、单数据流，优点是低能耗、高性能、可编程。对某个特定运算，FPGA可编程重组直接生成专用电路，仅需少量时钟周期便可完成运算，解决了定制电路灵活性不足以及可编程器件门电路数量有限的缺点，极大的提高能耗比。同时FPGA的制作成本远低于ASIC，在芯片需求还未成规模、深度学习算法暂未稳定的情况下，利用FPGA来实现半定制的AI芯片是最佳选择。尽管FPGA被看好，但也存在诸多局限：①基本单元的计算能力有限，虽然FPGA內部有大量极细粒度的基本单元，但计算能力远低于CPU和GPU中的ALU 模块;②计算资源占比相对较低，为了实现可重构特性，FPGA内大量资源用于片上路由与连线;③速度和功耗与ASIC存在不小差距;④FPGA价格较高。

ASIC即专用集成电路，为实现特定应用需求而定制的专用AI芯片，可针对性地进行硬件层次的优化，具有体积小、低功耗、高性能、低成本等优点。正如 CPU改变了当年庞大的计算机一样，ASIC芯片也将改变AI 硬件设备的面貌。并且，下游需求促进人工智能芯片专用化。从无人驾驶汽车、无人机到智能家居，至少数十倍于智能手机体量的设备需要引入感知交互能力和人工智能计算能力。考虑到实时性及数据隐私等问题，这些应用不可能完全依赖云端，必须要有本地的硬件基础作支撑，这将带来海量的ASIC芯片需求。因此深度学习算法稳定后，AI芯片可采用ASIC设计方法进行定制。但其缺点也是十分明显的，ASIC的设计和制造需要大量的资金、较长的研发周期和工程周期，一旦定制就难以修改等等。

类脑芯片是一款模拟人脑神经网络的芯片，可以模拟人脑进行功能感知。类脑芯片研究的策略是用硬件来模仿人脑的神经突触。这种新型“大脑芯片”迥异于传统计算机的CPU。它能运用类似于人脑的神经计算方法，优点是低能耗和高容错性，高智能性，其在认知学习、自动组织、对模糊信息的综合处理等方面也有独特的优势，因此类脑芯片是AI芯片的未来发展方向。

4 结束语

从1946年第一代电子计算机诞生以来，七十多年间，随着科学技术以及半导体元器件的广泛发展，计算机技术得到了飞速的发展，正在教育、医疗、通信等各个领域发挥着不可替代的作用[7]。电子元器件的更新速度在一定程度上决定了计算机的换代速度，摩尔定律逐渐走向终结、标准微处理器性能增长减速等，这些是需要考虑的问题，这对我们来说是机遇与挑战。我们认为计算机下一个时代将会在成本、架构、能源及安全方面得到提高，硬件结构上也会有更高性能的产品出现，期待新技术的出现。

参考文献（References）：

[1] 数码人科技.全球首款7.24GHz主频的处理器诞生[J].，2018.6.22

[2] 太平洋电脑.i9-9980XE全网首发开箱：18核36线程+钎焊太强[J].，2018.11.14

[3] 驱动之家. 64框框撕裂任何对手！AMD锐龙ThreadRipper 2990WX/2950X首发评测 [J].， 2018.8.13

[4] IT之家. 芝奇发布内存条DDR4-3800MHz：全球速度最快的RIPJAWS系列内存条[J].，2017.10.24

[5] 装机数码快报.8300能买到世界上速度最快的固态硬盘[J]. ，2018.05.03

[6] 智车科技.半定制化的FPGA芯片和全定制化的ASIC芯片[J]. ，2018.12.03

[7] 张晨曦，王志英.计算机系统结构[M].北京：高等教育出版社，2014.