大数据技术在江苏烟草数据中心的应用

2017-12-29 09:13作者郭文卓王子豪中国烟草总公司江苏省公司
电子制作 2017年12期
关键词:烟草数据中心架构

作者/郭文卓,王子豪,中国烟草总公司江苏省公司

大数据技术在江苏烟草数据中心的应用

作者/郭文卓,王子豪,中国烟草总公司江苏省公司

以大数据技术的发展为背景,结合江苏烟草数据中心建设的实际情况,分析了江苏烟草数据中心以Hadoop及Impala等大数据技术为核心,辅以Kettle和JSP等数据处理及展现技术共同构建基于大数据技术的自定义数据查询平台的架构设计和实现方案。展现了大数据技术带来的远超传统技术平台的灵活性以及对于大数据量查询的快速响应能力。

烟草;数据中心;大数据;Hadoop;Impala

1. 大数据技术现状

当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提供产品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。

1.1 大数据技术现状

广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。

1.2 大数据技术对烟草数据中心建设的影响

当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学习大大缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。

2. 江苏烟草数据中心应用现状

2.1 江苏烟草数据中心体系架构

目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。

一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。

一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。

一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。

基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。

2.2 大数据技术的应用场景分析

随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。

江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。

3. 基于大数据的自定义数据查询平台实现

3.1 设计思路及架构

基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。

3.2 技术方案

自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。

自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。

自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。

自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。

3.3 系统实现效果

利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。

使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。

在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。

4. 结束语

大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。

* [1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48

* [2]刘忆鲁,刘长银,侯艳权.大数据时代下的信息安全问题论述[J].信息通信.2016,181—182

* [3]崔洪刚,唐浩,汪永超.大数据时代下的信息安全问题研究[J].通讯世界,2016,07:239

猜你喜欢
烟草数据中心架构
基于FPGA的RNN硬件加速架构
上海烟草包装印刷有限公司
浅析数据中心空调节能发展趋势
功能架构在电子电气架构开发中的应用和实践
构建富有活力和效率的社会治理架构
关于建立“格萨尔文献数据中心”的初步构想
2017第十届中国数据中心大会榜单
VoLTE时代智能网架构演进研究
全国首次青少年烟草调查
烟草镜头与历史真实