涂子沛:大数据时代的中国挑战

2014-04-28 14:21
商周刊 2014年6期

2013年,“大数据”这一概念以夺目之势走进了我们的视野,学者在介绍,政府官员在谈论,世界互联网企业则纷纷启动“大数据”竞争,有媒体将其称为“大数据元年”。时至2014年,大数据正由技术热词变成一股社会浪潮乃至国家战略。

今年2月,畅销书《大数据:正在到来的数据革命》的作者——旅美华人学者涂子沛,做客凤凰视频世纪大讲堂栏目,并预测未来5年内,大数据会在中国遍地开花。

一个真正的信息社会。首先是一个公民社会

头一回在美国上统计课,在国内政府部门做过近10年数据统计工作的涂子沛觉得“眼前一亮”。

这一讲的内容是统计学的意义。大胡子的印度裔教授一本正经地对学生们说:“我们信靠上帝。除了上帝,任何人都必须用数据来说话。”

教授大胆的观点一下子震撼了中国学生涂子沛。在他的印象中,数据往往被当成论证工具,更像是一种“证明领导意图的手段”。

但在这里,“数据”二字似乎有另一重含义。

2007年底,奥巴马访问了谷歌公司的总部。作为他的支持者,涂子沛在视频网站上观看了这次演讲。

“人民知道得越多,政府官员才可能更加负责任。”当时这位总统候选人一上来就表达了建设开放政府的决心。

面对谷歌公司的员工,奥巴马继而雄心勃勃地说:“我将把联邦政府的数据用通用的格式推上互联网。我要让公民可以跟踪、查询政府的资金、合同、专门款项和游说人员的信息。”

涂子沛记得,演讲在此时被热烈的掌声所打断。

这是涂子沛第一次将“公民权利”这样的大词与“数据”联系起来。也正是从那时起,这个从卡内基·梅隆大学毕业、并已经在一家美国公司就职的数据库程序员萌生了一个系统的写作计划。

2011年12月,涂子沛将21万字的书稿寄给国内几家出版社。

一家出版社的编辑对他说:“不管别人开出什么样的条件,我们都要。”而另一家出版社的主编则给涂子沛回复了一封邮件,写道:“这是一本中国社会需要的书。”

2012年7月,《大数据》一书出版。翻开这本以0和1的二进制代码图案为封面的新书,扉页上的题记别具一格:“一个真正的信息社会,首先是一个公民社会。”

“大数据”这一概念便迅速以夺目之势走进了我们的视野。

“什么是大数据?”初次接触大数据的人们最好奇的就是这个问题。

涂子沛解释,这首先是对信息爆炸时代的崭新描述。“如果把2013年全世界预计将存储的数据总量全部记在书里,那么这些书可以覆盖整个美国52次。如果将这些数据存储在只读光盘上,这些光盘可以堆成五堆,每一堆都可以伸到月球。”

不过在涂子沛看来,仅仅用数量之大解读大数据不够完整,能量之大才是大数据这枚硬币的另一面。一个经典的案例是,在甲型HINI流感爆发前几周,谷歌公司通过观察5000万条美国人最频繁检索的词条数据,发现“哪些是治疗咳嗽和发热的药物”这一主题的检索频率大增,进而准确预测了流感的发生及传播范围。

“面对海量数据,谁能更好地处理、分析数据,谁就能真正抢得大数据时代的先机。”这是涂子沛对大数据威力的评价。

美国是怎样做的

涂子沛在美国匹兹堡市一家联邦政府的合同商公司做程序员,每天面对的东西都是数据、代码或大大小小的表格。

但无论从哪个角度观察,他都不是一个单纯的IT行业的从业者。涂子沛爱读刘瑜和陈丹青的书,和匹兹堡大学著名史学教授许倬云是好朋友,还会在一个人开车的时候听几段古典诗词的朗诵。他的房间里,大部头的编程书籍和不少从国内带来的人文类图书整齐码放在书架上。书房的窗外,大树的树叶伸手可及,他喜欢对着一片新绿写作。

上世纪70年代初,涂子沛出生在一个法官家庭。因为从小看父亲断案,他很早就开始思考什么是“正义”这样的大问题。90年代中期,他进入当时的华中理工大学读书。学校里有人文讲堂的讲座活动,这个计算机专业的学生是最忠实的拥趸之一。讲座结束后,他常会在昏暗的路灯下追着讲师们请教问题,直到老师的家门口。

时任中国人民大学副校长的谢韬也来过人文讲堂。当时他给涂子沛签名并留下这样一句赠语:“要做新世纪国家的建设者。”

年已不惑的涂子沛至今仍然保留着这份情怀。他在博客上记录匹兹堡市的学生们如何因为征税问题质询市长,也写下这里的市民对阻止他们游行的匹兹堡警方怎样提起集体诉讼。

随后,看到奥巴马2007年在谷歌公司的演讲开始,涂子沛才意识到,原来自己一直关心的“公平正义”,竟然与每天朝夕相处的数据有着如此紧密的联系。

在此以前,和大部分人一样,涂子沛更愿意从技术层面去关注什么才是“大数据”——这是对信息爆炸时代的崭新描述。它的基本单位是“太”(TB),而1000个太则等于一“拍”(PB)。打个直观的比方,美国国会图书馆是世界上最大的图书馆之一,它所有印刷品的信息量加起来只有15太。而全美国仅在2010年一年的新增数据量就足足有350啪,这比13亿中国人人手一本1500页的书加起来的信息量还要大。

麦肯锡咨询顾问公司曾做出估测,未来数据仍然会以每年50%的速度增长,美国还需要14万至19万名拥有“深度分析数据”专长的工作者。

涂子沛便是其中之一。他会在自己的专栏文章中记录那些数据改变商业的故事:比如,沃尔玛的研究人员通过数据挖掘,发现四成左右的年轻爸爸在购买婴儿尿布时会顺手买点啤酒犒劳自己,便对这两种商品进行了捆绑销售,结果销售量双双增加。更夸张的事例是,一个高中女孩某天突然收到了超市寄来的婴儿服广告,父亲大为光火,但就在超市公开道歉几天后,这位父亲发现自己的女儿真的怀孕了。原来,超市已经可以通过顾客的食品消费数据做出趋势判断。

数据挖掘已经在美国形成了一条完整的产业链,不少大学还设立了相关的硕士学位。endprint

2009年1月17日,新任美国总统奥巴马主持内阁的宣誓仪式并发表讲话。“很长时间以来,我们已经习惯了为华盛顿这个城市蒙上一层神秘的面纱,但从今天起,我们将不再沿承旧例。”

“为了引领一个开放政府的新时代,面对信息,政府机关的第一反应必须是公开。这意味着我们必须坚定地公开信息,而不是等待公众查询。所有的政府机关都应该利用最新的技术推进信息公开,这种公开,应该是及时的。”

这一天,奥巴马伏案用他标志性的左手姿势签署了他的首份总统备忘案《透明和开放的政府》。120天后,一个叫做Data,gov的网站正式上线发布。这是一个数据开放的门户网站,旨在全面开放美国联邦政府拥有的数据。

项目的负责人是维韦克·孔德劳,美国政府历史上的第一位首席信息官。“这是一场数据民主化的运动,我们正在把信息的力量放到美国人民手中。”这个不到35岁的印度裔帅小伙同样雄心勃勃。

事实上,作为雇用了约200万名工作人员的全美最大雇主,联邦政府共拥有848拍字节的数据总量。全世界最大的零售巨头沃尔玛,其数据库大小还赶不上商务部下属的美国普查局。

Data,gov的出现则为信息公开的发展注入了新的活力。截至2009年底,这个网站收到了社会各界约900项开放数据的申请。联邦政府最后回复:16%的数据立即开放、26%将在短期内开放、36%将计划开放,还有22%因为国家安全、个人隐私以及技术方面的限制无法开放。与此同时,行政管理预算局发布了《开放政府的指令》,命令各个联邦部门必须在45天之内,至少再开放3项高价值的数据。

在中国。大数据会一步步改变我们的生活

《大数据》一书在国内出版后,涂子沛在一家图书网站上看到了这样一条推荐语:这里有中国的问题,这里有中国的财富,这里有中国的乡愁。“当时就掉眼泪了。”曾经在边防部队生活过8年的涂子沛压低声音说,他平时车里放的歌就是罗大佑的《乡愁四韵》。

与此同时,越来越多基于大数据技术产生的创意正在实实在在地进入中国人的生活。

涂子沛说,《大数据》出版后不久,时任中央政治局委员、广东省委书记汪洋曾给省财政厅的全体干部推荐过《大数据》。汪洋讲到马云曾经对他说,现在数据就是竞争力:“你想不到全中国比基尼卖得最好的是哪几个省,一般人认为肯定是广东、海南。”

马云随即告诉汪洋,从淘宝数据上看,其实卖得最好的是新疆和内蒙古。他这样解释这种反常的相关性:估计每一个男人,都要给他的夫人、情人和对象一个美好的憧憬,“有一天我带你去下海”。

“当然这是他的一种解释,但是能反映什么呢,就是这些数据和你想象的不是一个概念。如果商家掌握了这个东西,其实你比基尼广告的重点不要放在广东做,你放到新疆、内蒙古去做啊,这效果可能就不大一样了。”汪洋给出了自己的解读。

曾经两次去阿里巴巴交流的涂子沛说,阿里金融正在试图通过大数据技术解决“小微企业融资难”的问题。“所有贷款都是通过信用贷款,不像银行那样需要房产或其他抵押品,也不需要走访约谈。因为他们会对客户的所有行为数据进行挖掘分析,再决定是否放贷。”

而在最近半年余额宝横空出世,“依靠大数据技术,IT企业也可以变成银行,很难想象吧?”涂子沛笑着说,“在中国,大数据会一步步改变我们的生活。”

有媒体曾经报道过支付宝的数据科学家们每天的工作:他们会把客户分成50个族群进行研究,其中有一个群体叫做都市轻熟男,还有一个群体叫千金美少女,而这些类型的划分依据就是用户在淘宝、天猫、支付宝和聚划算中的付费行为数据。在能识别用户之后,一个微妙的变化是,在写商品推荐文字的时候,不再是过去那样千篇一律地使用“亲”作为开头了。

类似的变化涂子沛也曾亲身感受过。有一回在国内演讲,他住在白天鹅宾馆,宾馆的信息部主任告诉他,这家宾馆的信息部有收集用水量的习惯。有一年,原本平稳的用水量突然出现了大幅波动,工作人员经过分析排查发现,花坛下有个水管漏水很久,“是数据让他们发现了问题”。

这一回,又一个与大数据有关的故事让他眼前一亮。在华东师范大学,一名女生因为减肥,5月份的饭卡消费较少,没想到竟然收到一条系统短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?如有困难,可电话、短信或邮件我。如无困难,也请回复一下,以便下月不再重复问询。”

原来,这个消息来自学校的困难生预警系统,而这套系统正是基于学生饭卡消费的数据建成。涂子沛第一时间转发评论:“华东师大用数据表达爱和关怀。”

在一次演讲中,涂子沛曾这样说道:“今天,数据已经无处不在,我们的衣食住行、喜怒哀愁、吃喝玩乐都以数据的形式存在。通过数据、网络和软件,我们用数据来记录这个世界,再通过研究数据去发现这个世界。”

(本刊编辑综合整理)endprint