我国大数据发展状况及对策思考

2015-09-04 06:33
中国建设信息化 2015年3期
关键词:环节

一、大数据概念探讨

大数据的应用和技术是在互联网快速发展中诞生的,起点可追溯到2000年前后。当时互联网网页爆发式增长,每天新增约 700 万个网页,到 2000 年底全球网页数达到 40 亿,用户检索信息越来越不方便。谷歌等公司率先建立了覆盖数十亿网页的索引库,开始提供较为精确的搜索服务,大大提升了人们使用互联网的效率,这是大数据应用的起点。当时搜索引擎要存储和处理的数据,不仅数量之大前所未有,而且以非结构化数据为主,传统技术无法应对。为此,谷歌提出了一套以分布式为特征的全新技术体系,即后来陆续公开的分布式文件系统(GFS,Google File System)、分布式并行计算(MapReduce)和分布式数据(BigTable)等技术,以较低的成本实现了之前技术无法达到的规模。这些技术奠定了当前大数据技术的基础,可以认为是大数据技术的源头。

伴随着互联网产业的崛起,这种创新的海量数据处理技术在电子商务、定向广告、智能推荐、社交网络等方面得到应用,取得巨大的商业成功。这启发全社会开始重新审视数据的巨大价值,于是金融、电信等拥有大量数据的行业开始尝试这种新的理念和技术,取得初步成效。与此同时,业界也在不断对谷歌提出的技术体系进行扩展,使之能在更多的场景下使用。2011 年,麦肯锡、世界经济论坛等知名机构对这种数据驱动的创新进行了研究总结,随即在全世界兴起了一股大数据热潮。

虽然大数据已经成为全社会热议的话题,但到目前为止,“大数据”尚无公认的统一定义。我们认为,认识大数据,要把握“资源、技术、应用”三个层次。大数据是具有体量大、结构多样、时效强等特征的数据;处理大数据需采用新型计算架构和智能算法等新技术;大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线闭环的业务流程优化。因此说,大数据不仅“大”,而且“新”,是新资源、新工具和新应用的综合体。

二、大数据关键技术

(一) 大数据对传统数据处理技术体系提出挑战

大数据来源于互联网、企业系统和物联网等信息系统,经过大数据处理系统的分析挖掘,产生新的知识用以支撑决策或业务的自动智能化运转。从数据在信息系统中的生命周期看,大数据从数据源经过分析挖掘到最终获得价值一般需要经过 5 个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。每个环节都面临不同程度的技术上的挑战。

◆数据准备环节:在进行存储和处理之前,需要对数据进行清洗、整理,传统数据处理体 系中称为 ETL(Extracting,Transforming,Loading)过程。与以往数据分析相比,大数据的来源多种多样,包括企业内部数据库、互联网数据和物联网数据,不仅数量庞大、格式不一,质量也良莠不齐。这就要求数据准备环节一方面要规范格式,便于后续存储管理,另一方面要在尽可能保留原有语义的情况下去粗取精、消除噪声。

◆数据存储与管理环节:当前全球数据量正以每年超过 50%的速度增长,存储技术的成本和性能面临非常大的压力。大数据存储系统不仅需要以极低的成本存储海量数据,还要适应多样化的非结构化数据管理需求,具备数据格式上的可扩展性。

◆计算处理环节:需要根据处理的数据类型和分析目标,采用适当的算法模型,快速处理数据。海量数据处理要消耗大量的计算资源,对于传统单机或并行计算技术来说,速度、可扩展性和成本上都难以适应大数据计算分析的新需求。分而治之的分布式计算成为大数据的主流计算架构,但在一些特定场景下的实时性还需要大幅提升。

◆数据分析环节:数据分析环节需要从纷繁复杂的数据中发现规律提取新的知识,是大数据价值挖掘的关键。传统数据挖掘对象多是结构化、单一对象的小数据集,挖掘更侧重根据先验知识预先人工建立模型,然后依据既定模型进行分析。对于非结构化、多源异构的大数据集的分析,往往缺乏先验知识,很难建立显式的数学模型,这就需要发展更加智能的数据挖掘技术。

◆知识展现环节:在大数据服务于决策支撑场景下,以直观的方式将分析结果呈现给用户,是大数据分析的重要环节。如何让复杂的分析结果易于理解是主要挑战。在嵌入多业务中的闭环大数据应用中,一般是由机器根据算法直接应用分析结果而无需人工干预,这种场景下知识展现环节则不是必需的。

总的来看,大数据对数据准备环节和知识展现环节来说只是量的变化,并不需要根本性的变革。但大数据对数据分析、计算和存储三个环节影响较大,需要对技术架构和算法进行重构,是当前和未来一段时间大数据技术创新的焦点。

三、我国大数据发展状况

我国大数据发展的宏观政策环境不断完善。2012 年以来,科技部、发改委、工信部等部委在科技和产业化专项陆续支持了一批大数据相关项目,在推进技术研发方面取得了积极效果。2013年6月工信部发布的《电信和互联网用户个人信息保护规定》,根据《全国人民代表大会常务委员会关于加强网络信息保护的决定》,进一步界定了个人信息的范围,提出了个人信息的收集和使用规则、安全保障等要求,为大数据应用中的个人信息保护设立了法律法规屏障。2014年《政府工作报告》明确提出,“以创新支撑和引领经济结构优化升级;设立新兴产业创业创新平台”,在新一代移动通信、集成电路、大数据等方面赶超先进,引领未来产业发展。

地方政府积极推动大数据发展,2013年以来陆续出台了推进计划。总体上看各地大数据发展政策各有侧重,形成了不同的模式。

模式一是强调研发及公共领域应用。如上海市《推进大数据研究与发展三年行动计划》提出,将在三年内选取医疗卫生、食品安全、终身教育、智慧交通、公共安全、科技服务 6 个有基础的领域,建设大数据公共服务平台。

模式二是强调以大数据引领产业转型升级。如北京中关村《关于加快培育大数据产业集群推动产业转型升级的意见》提出,要充分发挥大数据在工业化与信息化深度融合中的关键作用,推动中关村国家自主创新示范区产业转型升级。

模式三是强调建立大数据基地,吸纳企业落户。如重庆、贵州、陕西、湖北等地都提出建设大数据产业基地的计划,力图将大数据培育成本地的支柱产业。在地方积极推动大数据发展的同时,也应警惕将“大数据”简单等同于“大数据中心”、盲目上马大规模园区建设的潜在过热风险。

总体上,我国的大数据产业具备良好基础,发展前景广阔。

一是一批世界级的互联网公司在大数据应用上不断推陈出新,智能搜索、广告、电商、社交等借助大数据技术持续进化,互联网金融、O2O(online to offline)等应用借助大数据向线下延伸。

二是大数据技术紧跟国际先进水平,具备建设和运营世界最大规模大数据平台的能力,单集群规模达 5000 到 10000 台服务器,数据管理规模达到 EB(1EB=10 18 B)级别,在机器学习等方面也有所突破。

三是当前和未来一段时间,我国面临着经济结构转型升级、政府和公共服务改进提升等紧迫任务,这些方面大数据都有广阔的应用前景。

四、问题与政策思考

(一) 我国大数据发展面临的问题

应该认识到,大数据在全球的发展还都处于初期,技术、制度、观念等方面都需要改变。对我国来说,数据资源不丰富、技术差距大和法律法规不完善是当前大数据发展面临的主要问题。

一是我国数据源不够丰富,数据开放程度较低。丰富的高质量数据资源是大数据产业发展的前提。近几年在互联网产业及金融、电信信息化快速发展的带动下,我国数据资源总量有了快速增长,已达到全球的 13%,但其他行业受信息化水平制约,数据储量仍不丰富。已有数据资源还存在标准化、准确性、完整性低,利用价值不高的情况。

同时,我国政府、企业和行业信息化系统建设中受到各种因素制约,形成了众多“信息孤岛”,数据开放程度严重滞后。建立良性发展的数据资源储备与共享体系,是我国大数据发展的首要问题。

二是我国大数据技术存在水平不高,技术扩散不畅的问题。我国大数据技术的发展模式也与全球类似,互联网企业具备快速将国际先进的开源大数据技术整合到自身系统中的能力,并构建了单集群上万节点的大型系统,但仍缺乏原创技术,对开源社区的贡献不足,进而对前沿技术路线的影响比较微弱。同时,由于本土开源社区等产业组织发育滞后,国内领先企业在大数据方面的技术创新也难以向社会扩散。

三是大数据相关的法律法规有待进一步完善。随着大数据挖掘分析将越来越精准、应用领域不断扩展,个人隐私保护和数据安全变得非常紧迫。在隐私保护方面,现有的法律体系面临着两个方面的挑战:

一是法律保护的个人隐私主,要体现为“个人可识别信息(PII,Personally identifiable information”,但随着技术的推进,以往并非 PII的数据也可能会成为 PII,使得保护范围变得模糊。

二是以往建立在“目的明确、事先同意、使用限制”等原则之上的个人信息保护制度,在大数据场景下变得越来越难以操作。而我国个人信息保护、数据跨境流动等方面的法律法规尚不健全,这成为制约大数据产业健康发展的重要原因之一。需要结合我国法治建设的实际情况,探索通过行业自律等方式弥补法律体系不完善的弊端。

(二) 推动我国大数据产业发展的对策思考

在总体思路上,需要首先明确我国大数据发展的战略目标和战略重点,统筹谋划大数据应用、关键技术研发与产业培育、数据开放与数据保护、市场监管、法律法规等关键布局,引导国内各地大数据发展方向,避免一哄而上的盲目发展。

在大数据应用上,一是政务和公共服务领域的应用,重点面向改善民生服务和城市治理等方面,积极推动环保、医疗、教育、交通等关键领域的大数据整合与集成应用,进一步提高政务和公共服务效率。

二是市场化应用方面,重点在跨行业的大数据应用方面出台推动政策,促进互联网、电信、金融等企业与其他行业开展大数据融合与应用创新,带动全社会大数据应用不断深化。

在技术创新上,一是要加强大数据技术研发方向的前瞻性和系统性,近期重点支持深度学习与人工智能、实时大数据处理、海量数据存储管理、交互式数据可视化和应用相关的分析技术。二是要聚集产学研用力量形成合力,力争在大数据平台级软件上实现突破,以此为核心发展开源生态。三是创新科研项目支持方式,将开源和开放标准作为考核指标,通过直接补助或后补助方式激励企业和科研机构参与开源技术发展,促进大数据技术扩散。

在政府数据开放上,建议推进政府和公用事业领域数据资源的普查工作,并按照相关法规制定政府和公共数据开放中的安全和隐私保护检查表,对可能涉及国家安全和公民隐私的风险点进行严格控制。

在此基础上,按敏感性对政府和公共数据进行分类,确定开放优先级,制定分步骤的数据开放路线图。同时,政府也应积极规范和引导商业化的大数据交易活动,为数据资源的流通创造有利条件。

在个人信息保护上,国际上一些机构提出,为了释放大数据潜力, 监管的重点应该“从数据收集环节,转移数据使用环节”。我们要密切关注国际上立法理念的演变趋势,结合技术发展趋势和我国国情对相关制度进行前瞻性研究。同时,为了解决当前个人信息和数据保护的紧迫需求,可依托行业组织及时总结业界的最佳实践,逐步形成行业共识,在试点成熟后上升为标准或法律法规并推动实施,为大数据的健康发展保驾护航。

(摘自工业和信息化部电信研究院大数据白皮书·2014)

猜你喜欢
环节
提高种公牛精液品质的几个主要环节
必要的环节要写清
全宅影音集成系统中最温馨的环节 室内光线控制系统
五环节自主学习型教学模式改革初探
桥式起重机使用环节重大危险源辨识研究
构建“三步六环节”模式,打造高三复习高效课堂
在农民需求迫切的环节上『深耕』
高三数学一轮复习必须重视的几个环节
谚语趣画
多环节发力攻克深层次矛盾