人工智能芯片技术研究

2016-12-30 02:59施羽暇中国信息通信研究院政策与经济研究所工程师博士

信息通信技术与政策 2016年12期

施羽暇中国信息通信研究院政策与经济研究所工程师，博士

人工智能芯片技术研究

施羽暇中国信息通信研究院政策与经济研究所工程师，博士

人工智能将推动新一轮计算革命。深度学习需要海量数据并行运算，传统计算架构无法支撑深度学习的大规模并行计算需求。核心芯片是人工智能时代的战略制高点，决定了一个新的计算平台的基础架构和发展生态。本文分析了人工智能产业全球及我国主要态势、人工智能技术体系、全球及我国人工智能芯片的发展路线，并对不同技术路线的主要特点进行了比较和分析。

人工智能；核心芯片；技术体系；技术趋势

1 引言

随着2016年AlphaGo在人机围棋大战获胜后，人工智能在全球范围引发关注，成为投资风口，全球人工智能领域的投资金额已成爆发增长态势。从企业方面看，全球企业加快布局，2016年9月底谷歌、脸书、IBM等五大科技巨头联合成立了AI合作组织，以促进人工智能技术的发展。从国家层面看，各国政府也纷纷出台相关战略，美国政府在2016年10月12日发布了《为人工智能的未来做好准备》和《国家人工智能研究与发展战略计划》两份重要报告，英国政府随后发布了《机器人和人工智能》报告。科技巨头投资并购持续活跃。投资在过去5年间强劲增长，创新高科技大型公司是人工智能投资的主力军。人工智能创业企业总体处于发展初期，投资主要集中在早期阶段，最近3年B轮和C轮投资显著增长。

人工智能在历史上经历过三起三落的浪潮，在今天之所以再次兴起，有两方面的原因：

一是技术的推动、软硬件的发展。包括海量数据的形成、深度学习算法的革新、硬件技术的变革和网络基础设施的发展。

二是互联网兴起奠定生态基础。移动互联网、物联网的快速发展为人工智能的产业奠定了生态基础。谷歌、脸书、百度等国内外行业巨头加快了智能化转型的步伐，新的商业模式正在蓄势形成。人工智能产品背后的数据、软件及算法等是人工智能的核心要素，而包括机器人、语音助手等在内的软硬件产品仅是人工智能的载体。

2 人工智能技术体系

人工智能技术体系可分为3层，即底层基础层、中间技术层与上层应用层（见图1）。基础层包含硬件存储、计算平台和数据资源等，GPU芯片、传感器、云计算平台、大数据等均包含在此层中。中间技术层包含算法、模型平台，感知智能算法、认知智能算法等均在此层中。应用层包含硬件产品和应用服务，硬件中包含智能硬件、无人机、智能机器等，应用服务包含语音输入法、虚拟助手、自动驾驶及智能安防等。

大数据、底层算法和核心处理器芯片是支撑人工智能技术不断发展的关键要素。数据量的丰富程度是提升算法有效性的决定因素之一。随着移动设备渗透，全球数据量加速爆发，不仅数据流增长，数据种类也在不断增多。从算法层面看，深度学习与传统机器学习相比，能让计算机自动学习特征并建立模型，减少了人类在总结特征时的不完备性。从硬件来看，根据摩尔定律，计算成本指数下降，大规模并行计算加速发展为深度学习奠定计算基础。

基于深度学习模型的算法对大规模并行计算能力的需求不断增加，CPU和传统计算架构无法满足对于并行计算能力的需求。核心芯片成为竞争的战略制高点。在PC时代和移动互联网时代分别处于霸主地位的X86架构和ARM架构的发展历程表明，核心芯片决定了一个新的计算平台的基础架构和发展生态，人工智能将引领下一代计算机架构革命。

3 人工智能芯片发展路线图

图1 人工智能技术体系结构

处理器芯片面向人工智能硬件优化升级，目前有两种发展路径：一种是延续传统计算架构，加速硬件计算能力，主要以4种类型的芯片为代表，即GPU、DSP、FPGA、ASIC，但CPU依旧发挥着不可替代的作用；另一种是颠覆经典的冯诺依曼计算架构，采用人脑神经元的结构来提升计算能力，以IBMTrueNorth芯片为代表。

3.1 CPU及其局限性

超速处理硬件发展起来后，CPU在机器学习上进行的计算量大大减少，但是CPU并不会完全被取代，因为CPU较为灵活，且擅长于单一而有深度的运算，还可以做其他事情。Intel推出至强处理器Phi系列产品。但是即便Intel的芯片在集成度和制造工艺上具有优势，由于CPU并非针对深度学习的专业芯片，相对于专业芯片，其运行效率必然受到一定影响。

3.2 GPU

基于GPU的技术阵营，代表企业有英伟达和高通。GPU作为最早从事并行加速计算的处理器，相比CPU速度快，比其他处理器芯片价格低，但是GPU也有一定的局限性。深度学习算法分为训练和执行两部分，GPU平台在算法训练上非常高效。但在在执行部分，由于GPU只能单任务进行处理，效率较低。

3.3 DSP

基于DSP的技术阵营，以Cadence和Synopsys为代表。用传统DSP架构来适配神经网络的技术思想在国际上目前已有成熟的产品，例如Synopsys公司的EV处理器、Cadence公司的TensilicaVisionP5处理器和CEVA公司的XM4处理器等。其中，EV处理器可在典型的28nm工艺技术中实现高达1GHz的运行速率。但3者都是针对图像和计算机视觉处理器IP核，应用领域有一定的局限性。

3.4 FPGA

基于FPGA的技术阵营，代表企业有Xilinx和Altera。相比GPU，FPGA硬件配置灵活、单位能耗比低、价格便宜。但是，FPGA对使用者要求需具备硬件知识，要求较高。目前的FPGA市场由Xilinx和Altera主导，两者共同占有85%的市场份额。此外，FPGA正迅速取代ASIC和应用专用标准产品（ASSP）来实现固定功能逻辑。Intel宣布要用10nmCMOS节点制造FPGA芯片，依然采用ARM作植入CPU。

3.5 ASIC

基于ASIC的技术阵营，以谷歌为代表。TPU是谷歌推出的ASIC类芯片，专门为机器学习设计，目前为开源平台Tensorflow专用的集成电路。而TPU为专用的逻辑电路，单一工作，速度快，但成本高。目前存在的缺点是为Google专用，还不是消费类产品。

3.6 神经形态芯片

另一条路径是颠覆经典的冯诺依曼架构。基于神经形态芯片架构，以IBMTruenorth为代表。IBM研究人员将存储单元作为突触、计算单元作为神经元、传输单元作为轴突搭建了神经芯片的原型。目前，Truenorth用三星28nm低功耗工艺技术，由54亿个晶体管组成的芯片构成有4096个神经突触核心的片上网络，实时作业功耗仅为70MW。由于神经触突要求可变与有记忆功能，IBM采用CMOS工艺兼容的相变非挥发存储器（PCM）的技术实现，加快了商业化进程。

4 人工智能芯片技术特点比较

CPU通用性最强，但延迟严重，散热高，效率最低。

GPU相对其他通用性稍强、速度快、效率高，但是在神经网络的执行阶段效率低。

DSP速度快、能耗低，但是任务单一，目前成熟商品仅作为视觉处理器IP核使用。

FPGA具有低能耗、高性能以及可编程等特性，相对于CPU与GPU有明显的性能与能耗优势。

ASIC可以更有针对性地进行硬件层次的优化，从而获得更好的性能。但是ASIC芯片的设计和制造需要大量的资金、较长的时间周期和工程周期，而且深度学习算法还未完全稳定，若深度学习算法发生大的变化，FPGA能很快改变架构，适应最新的变化，ASIC类芯片一旦定制无法再次进行写操作。另外，FPGA结构非常规整，相比于ASIC芯片可以享受最新的集成电路制造工艺带来的性能和功耗优势。

当前阶段，GPU配合CPU将是人工智能芯片的主流，而后随着视觉、语音、深度学习的算法在FPGA上的不断优化，FPGA将逐渐取代GPU与CPU成为主要芯片。从长远看，人工智能类脑神经芯片是发展的路径和方向。

5 结束语

人工智能发展历经波折，在今天再度兴起，得益于海量数据的形成、深度学习算法的革新、硬件技术的变革。算法和芯片是制约人工智能产业爆发的关键核心要素。深度学习需要海量数据并行运算，传统计算架构无法支撑深度学习的大规模并行计算需求，全球科技巨头纷纷抢占人工智能芯片的战略制高点。人工智能芯片行业作为产业最上游，是人工智能产业发展的基础和先锋。人工智能芯片更注重超速运算能力，呈现与通用处理器芯片差异化发展态势。我国在移动芯片发展浪潮中积累了一定的产业优势，在脑神经芯片技术研发上布局早，为了能够在人工智能时代占据国际领先地位，我国应加快战略步伐，加大研发力度，合理选择技术发展路径，把握我国在处理器技术方面变道超车的机会，促进人工智能产业爆发。

华为携手LRTC发布全球首个4G网络IPTV商用业务

欧洲立陶宛领先的电信运营商LRTC携手华为近日发布了全球第一个基于4GfixedLTE（WTTx，WirelessToTheX）网络IPTV商用业务，让更多家庭快速接入宽带服务，享受高质量的视频业务体验。

LRTC的无线宽带接入和VoIP语音服务早已投入商用。此次作为业界首秀，其与华为联合创新推出了基于4G网络CPE+机顶盒的IPTV及视频点播业务（VOD）。据悉，LRTC此次推出了34个电视频道，另外还包括运动、科技探索、商业财经等付费点播内容。除了LRTC，欧洲、亚太和中东其它移动运营商也在积极测试基于WTTx的TV及OTT视频点播业务。

LRTCCEORemigijusSeris指出：“通过此次与华为的全面合作，我们成功地推出了无线网络IPTV服务以满足现代电视业务的巨大需求，特别是那些居住在郊区和乡村的客户。我们也希望，IPTV项目将缩小立陶宛技术发达城市和欠发达区域之间的数字鸿沟。”

Researchonartificial intelligence process chip technology

SHIYuxia

Artificial intelligence will drive a new round of computing revolution. Deep learning requires massive data parallelcomputing, but the traditional computing architecture cannot support the large- scale parallel computing needs of deeplearning. The core process chip is the strategic high ground of the artificial intelligence era, deciding the infrastructure anddeveloping ecology of a new computing platform. This paper analyzes the main trend of artificial intelligence industry and thesituation of China, the artificial intelligence technology system, the global and Chinese artificial intelligence chipdevelopment route, and compares and analyzes themaincharacteristics of different technical routes.

artificial intelligence；core chip；technology system；technology trend（

2016-11-27）