大数据时代数据总量增长的新摩尔定律辨析
——吉姆·格雷是否真的提出过新摩尔定律?

2022-09-22 06:00辛冬播李廷军
软件导刊 2022年9期
关键词:摩尔定律吉姆信息量

辛冬播,李廷军

(江汉大学教育学院,湖北武汉 430056)

0 引言

1965年4月,《电子》杂志(Electronics)发表了一篇只有3 页的论文——Cramming more components onto integrated circuits(《集成电路里正塞入更多的元件》)[1]。文章作者戈登·摩尔(Gordon Moore)当时就职于仙童摄影器材公司的子公司仙童半导体(Fairchild Semiconductor),其在文中指出:随着成本曲线的降低,集成电路上可以封装的元件数目迅速增加,并预测到1970 年,一个集成电路上可以集成1 000个元件,每个元件的生产成本将是1965年的1/10,并且集成电路的集成程度每年将以2 倍速增长,以公式表示即为:(f(Δtn)=Q2n)。据此测算,1975年最低成本下单位集成电路封装的元件数目可以达到65 000个,具体如图1所示。

Fig.1 Cost curve(left),component integration(right)图1 成本曲线(左)、元件集成度(右)

1968 年,戈登·摩尔离开仙童公司并创立了英特尔(Intel),他继续将上述观察和推测作为芯片研发工作的指引,而后集成电路的不断发展印证了他的预测,于是有人将其命名为摩尔定律[2]。计算机科学家卡弗·米德(Carver Mead)在很多场合谈到过摩尔定律,促进了其传播,曾被认为是其命名者,但实际情况已难以考证[3]。1975 年,戈登·摩尔认为集成电路增长速度会有所放缓,遂将摩尔定律中的速度修改为每2 年翻一番。虽然此后实际状况基本上是按每18 个月翻一番的速度发展的,但戈登·摩尔并没有再修改其定律[4]。

摩尔定律原指单位集成电路封装的元件数目增加及单位成本相应下降的趋势随时间发展的一种规律,但在传播过程中出现了很多版本,主要有以下几种:①集成电路芯片上所集成电路的数目每隔18 个月就翻一番;②微处理器的性能每隔18 个月提高一倍,而价格下降一半[5];③IC 芯片上可容纳的晶体管数目每隔约18 个月便会增加一倍,计算机性能也将提升一倍[6]。严格来说,摩尔定律并不是定律,而只是一种观察和推测。经过50 多年的发展,戈登·摩尔认为集成电路技术的发展速度会减慢,摩尔定律可能会逐步退出历史舞台。

随着信息技术的发展,人们开始将摩尔定律套用到各种指数式发展的技术和产品上,于是安放在吉姆·格雷(Jim Gray)名下的新摩尔定律便横空出世了,即每18 个月全球新增信息量是计算机有史以来全部信息量的总和。吉姆·格雷是当代最杰出的数据库大师,是数据库和交换处理系统领域的领头人,是美国国家工程院院士、美国计算机协会(ACM)院士、微软公司高级研究员,曾获得1994年美国技术研究院大奖,以及号称计算机行业诺贝尔奖的图灵奖(1998 年)[7]。遗憾的是,他在2007 年出海后失踪[8]。与戈登·摩尔专注基础技术半导体工业不同,吉姆·格雷是数据库及处理系统方面的专家,如果他真的提出过关于数据量增长的新摩尔定律,以其背景而言似乎水到渠成,理所当然。然而,笔者认为所谓的吉姆·格雷新摩尔定律的表述有些问题。计算机有史以来全部信息量总和是否为固定值并不明确。如果按固定值来看,以Q 表示计算机有史以来全部信息量总和,那么再过18 个月全球新增信息量f(Δt1)=f(t2) -f(t1)=Q,而36 个月之后f(Δt2)=f(t3) -f(t2)=Q,其总量增速如图2 所示,这是一种减速递增关系,简单计算能得出其倍数将依次为2、1.5、1.33、1.25……。而摩尔定律是一段周期翻一番的2 倍指数倍递增关系(f(Δtn)=Q2n),二者相差甚远。如果计算机有史以来全部信息量总和不是固定值,即也包括了每18 个月的信息量,那么就会造成逻辑混乱。笔者深感困惑,于是追溯相关文献,探究吉姆·格雷是否真的提出过新摩尔定律。

Fig.2 The information quantity increment relationship图2 信息量增量关系

1 新摩尔定律文献统计与相关表述

1.1 新摩尔定律文献统计

在知网以“新摩尔定律”为关键词进行主题搜索,整理得到65 篇中文文献,如图3 所示。文献发表年度跨度为1999-2020 年,其中以2009 年发表的文献数量最多,2000年次之,2015年再次之。

采用Citespace 软件分析关键词共现情况,结果如图4所示。可以看出,各关键词之间离散程度较大,但新摩尔定律与大数据、摩尔定律的关联性在图中仍有所体现。

关键词突现分析结果如图5 所示,新摩尔定律作为关键词于2006 年首次出现。以下将对相关文献表述进行具体分析。

Fig.3 Annual trends of published Chinese literatures about"New Moore's Law"图3 新摩尔定律相关中文文献发表年度趋势

Fig.4 Key words co-occurrence图4 关键词共现

Fig.5 Key words with the strongest citation bursts图5 关键词突现

在Web of Science 中以“data(数据)”和“Moore’s Law(摩尔定律)”为关键词进行主题搜索,共查询到171 篇相关英文文献。同时,在这171 篇文献中再以“Gray”为关键词进行搜索,文献结果为0,这说明相关英文文献的标题、摘要、关键词中没有关于吉姆·格雷新摩尔定律的表述。据此初步推测,吉姆·格雷并未提出过新摩尔定律,之所以中文文献中出现相关表述,应是国内学者对吉姆·格雷某些观点的误读。

1.2 新摩尔定律相关表述

检索到的中文文献中关于新摩尔定律的表述主要有以下几种:1999 年,侯自强[9]提出:“我们不妨称因特网流量每半年翻一番的估计为网络发展的新摩尔定律。”2006年,王克朝[10]在其硕士学位论文的摘要中提到:“图灵奖获得者Jim Gray 提出了一个新的经验定律:网络环境下每18个月产生的数据量等于有史以来数据量之和。”2007 年,谢长生等[11]提到:“信息时代的到来意味着数字信息量的不断增长。1998 年图灵奖获得者Jim Gray 曾说过:‘从现在起,每18 个月新增存储量等于有史以来存储量之和。’”2008 年,孟小峰[12]提到:“图灵奖获得者Jim Gray 曾在1998 年的获奖演说中对未来数据量急剧增长的规律做过这样的预言:未来每18 个月产生的数据量等于有史以来的数据量之和!”2011 年,罗东健[13]提到:“互联网环境下,每18 个月新产生的数据量等于有史以来数据量之和。”2013 年,杨寅[14]提出:“图灵奖获奖者James Gray 总结并提出在当今网络应用环境下,每18 个月新产生和增加的数据存储总量等于有史以来所有数据存储量之和的经验定律。”2013 年及2015 年,刘鹏等[15-16]提到:“1998 年图灵奖获得者杰姆·格雷(Jim Gray)提出著名的新摩尔定律:每18个月全球新增信息量是计算机有史以来全部信息量的总和。”2018年,周兰[17]指出:“图灵奖获得者Jim Gray 更是提出新摩尔定律,即每18 个月全球新增信息量是计算机有史以来全部信息量的总和。”2020 年,董凯[18]提到:“图灵奖获得者杰姆·格雷提出的著名的新摩尔定律:每18 个月全球新增信息量是计算机有史以来全部信息量的总和。”

需要指出的是,相关学者引用所谓的新摩尔定律时并未辨析来源,也没有结合统计数据加以验证,这也正是令人困惑之处。

2 新摩尔定律的源流及辨析

追溯相关文献可以发现,1999 年侯自强首先提出了新摩尔定律的说法,但只是个人经验总结,并没有具名吉姆·格雷,其所提出的是网络流量每半年翻一番与18 个月的时间间隔也不一样。最早完整提出吉姆·格雷新摩尔定律的应是2006 年王克朝的硕士论文,其明确认定该定律是吉姆·格雷的经验定律,并提出“18 个月”和“数据量”等关键词。2007 年谢长生的表述中虽然用到的词是存储量,但其紧随在“数字信息量的不断增长”表述之后,极易使人将该存储量误解为数据量,之后相关文献中关键词采用的是数据量、信息量之类的表述。此外,孟小峰关于“图灵奖获得者Jim Gray 曾在1998 年的获奖演说中……”的表述是不严谨的。吉姆·格雷是为1998 年度奖项作的报告,但是在1999 年演讲的,与谢长石“1998 年图灵奖获得者Jim Gray 曾说过”的表述相比,孟小峰的表述会使人误以为是在1998 年发表的演讲。2013 年,刘鹏等将此类表述单独冠以新摩尔定律的称谓,之后其他文献的表述与其一致,但均未注明出处。

以上提到新摩尔定律的文献中,只有2008年孟小峰教授的引用注明了出处:What next?A dozen informationtechnology research goals,J.Gray,ACM Turing Award Lecture,June 1999,MS-TR-99-50[19]。该文献发表于2003年,为吉姆·格雷图灵奖获奖演说的精简版,文中有3 处提到摩尔定律,分别为:①Prices are falling faster than Moore’s law——storage will likely be a hundred times cheaper in ten years(价格下跌速度比摩尔定律快——10 年后储存器价格可能会便宜100 倍);②Moore’s law predicts a doubling every 18 months.This means that,in the next 18 months,there will be as much new storage as all storage ever built,as much new processing as all the processors ever built.The area under the curve in the next 18 months equals the area under the curve for all human history(摩尔定律预测每18 个月就会翻一番。这意味着,18 个月后新增的存储器(数量)将与现在已有的存储器一样多,18 个月后新增的处理能力将与现在已有的处理器一样大。未来18 个月曲线下面积等于现在为止所有人类历史曲线下的面积);③As I said at the beginning,progress appears to be accelerating;the base-technology progress,in the next 18 months,will equal all previous progress,if Moore’s law holds(正如我在一开始所说的,进展似乎正在加速;如果摩尔定律成立,未来18 个月基础技术的进展将等于到现在为止的所有进展)。

为进一步验证,根据2003 年这篇文献的脚注搜索到1999 年版本的原文[20],文中对应的3 处表述,与上文完全一致。吉姆·格雷在这份获奖发言中主要阐述了12 个长期系统研究问题:①可扩展性(Scalability)。设计一个可扩展到106倍的软件和硬件体系结构,仅通过添加更多资源,应用程序的存储和处理容量可以自动增加100 万倍,工作速度更快(加速106倍)或同时做106倍的工作;②图灵测试(The Turing Test)。建立一个计算机系统,模仿游戏的胜率至少达到30%;③语音文本(Speech to Text)。水平如同母语者;④文本语音(Text to Speech)。水平如同母语者;⑤视觉如人一样(See as Well as a Person)。能识别物体和运动;⑥个人记忆扩展器(Personal Memex)。记录一个人看到和听到的一切,并根据需要迅速检索到;⑦世界备忘录(World Memex)。建立一个给定文本语料库系统,可以回答有关文本的问题,并像该领域的人类专家一样准确、快速地总结文本,这个系统也能适用于音乐、图像、艺术和电影;⑧远程临场(Tele Presence)。模拟其他地方,使你作为观察者(远程观察),就如同一位在现场的人一样能听到和看到;模拟作为参与者出席另一地点的活动(远程临场)。与他人和环境互动,就好像你真的在那里一样;⑨无故障的系统(Trouble-free Systems)。建立一个每天被数百万人使用的系统,而它只需要一个兼职人员管理;⑩安全系统(Secure System)。确保问题⑨的系统仅服务授权用户,服务不能被未经授权者中断,信息也不能被窃取(需验证);⑪随时可用(Always Up)。确保系统每百年故障不到1s,即有99.999 999%的可靠性(需验证);⑫自动编程(Automatic Programmer)。设计一种规范语言或用户界面,可使人们更容易表述设计(更容易1 000 倍),使计算机可直接编译,并可描述所有应用程序(已完成)。系统应能质疑应用程序,对例外情况和规范完整性提出疑问,但使用起来不应很繁琐。

通过分析全文可以发现,吉姆·格雷阐述的增长是指存储(Storage)和处理器(Processor),而非数据量或信息量,其在文中提到的摩尔定律也只是旧摩尔定律,并未就数据量增长提出类似的说法。此外,吉姆·格雷没有将摩尔定律作为这篇文献的关键词之一,也间接证明了这一点。

进一步搜索关于吉姆·格雷的信息,在Web of Science核心合集发现其有3 篇以“Gray J”署名的文献,包含在其ACM 作者档案[21]中所列的112 篇出版文献中,其中就有What next?A dozen information-technology research goals(1999 年及2003 年)。此外,微软公司eScience 研究组(Microsoft Research′s eScience Group)在吉姆·格雷主页[22]整理了其未完结的项目,在这些文献篇名、关键词、摘要等中均未出现Moore’s Law(摩尔定律)这一关键词,因此无法证实吉姆·格雷提出过新摩尔定律。

针对渐有流行趋势的吉姆·格雷新摩尔定律,首先经文献分析发现大多数中文文献中未注明引用出处,也没有结合统计数据加以验证;其次进一步追根溯源,分析各文献表述,理清了国内有关新摩尔定律的各种来由;最后辨析各中文文献原文,查证相关英文文献,未找到吉姆·格雷提出新摩尔定律的直接证据。结合逻辑分析,以及全球数据量增长的相关统计,所谓的吉姆·格雷新摩尔定律表述本身也有明显漏洞。据此推测,吉姆·格雷并没有提出过新摩尔定律,该定律应是国内学者对吉姆·格雷某些观点的误读。当然,吉姆·格雷也许在其他地方确实提出过类似观点,受限于文献查找范围没有被发现。

3 大数据时代信息总量增长规律

所谓的吉姆·格雷新摩尔定律一直强调计算机有史以来全部信息量,而人类自公元前3000 年开始书写后就在不断创造和保存数据信息,而且人类历史上技术进步促进数据和信息量大幅增长的情况也曾发生过,例如15 世纪印刷术发明后以及19 世纪后期出版成本下降时。计算机及互联网的相继问世使数据增长速度今非昔比,如今进入大数据时代,全球数据量更是飞速增长。根据Statista 的统计和预测,2020 年全球数据产生量预计达到47ZB(1ZB 即1012GB),而到2035 年,这一数字将达到2 142ZB。信息技术在未来较长时期内将保持渐进式发展态势,其中数据处理能力远落后于指数级增长的数据体量。图6 为全球每年产生数据量估算图,这一指数级增长速率,即年均增速平均为1.3 倍,也就是约每3 年翻一番,这与国际数据公司(IDC)预测的2020-2024 年数据增长的年复合增长率(CAGR)26%基本一致。

Fig.6 Global annual data volume estimation图6 全球每年产生数据量估算

4 结语

全球数据总量飞速增长的趋势已是共识,其增长规律预测的可信度与是否为吉姆·格雷所提出并无直接关系。将全球数据总量指数级的增长规律命名为新摩尔定律无可厚非,但也完全没有必要无中生有地拉吉姆·格雷来为其站台。根据前文提到的相关统计及预测,大数据时代数据总量增长的新摩尔定律应该表述为全球数据总量每3年将翻一番。同样的,这个新摩尔定律也只是一种观察和推测,并不是一个真正的定律,今后完全可以根据数据总量增长的实际情况进行修正。

猜你喜欢
摩尔定律吉姆信息量
超高速光电计算芯片"挣脱”摩尔定律
摩尔定律
原始魅力——吉姆·科普
基于信息理论的交通信息量度量
吉姆餐厅
让身体从纸中穿过
如何增加地方电视台时政新闻的信息量
基于多尺度互信息量的数字视频帧篡改检测
基于联合熵和交互信息量的视频篡改检测
Nvidia:摩尔定律濒临失效 英特尔AMD惹祸