浅析大数据背景下的计算机信息处理技术

2016-03-22 13:28葛敏娜
电脑知识与技术 2016年1期
关键词:数据挖掘信息安全大数据

葛敏娜

摘要:该文主要简单分析了大数据背景下的计算机信息处理技术,从大数据的定义入手,分析了大数据的产生对计算机信息处理技术带来的挑战,在此基础上,说明了分布式存储、数据挖掘、信息安全等大数据背景下的计算机处理技术,并详细介绍了数据挖掘的C4.5决策树算法思想、k-means聚类算法思想以及信息安全中的加密算法的基本机制。

关键词:大数据;分布式存储;数据挖掘;信息安全

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)01-0003-02

1概述

随着科学技术的不断快速发展以及国民经济的快速增长,基于互联网络的计算机应用逐渐在社会的各个行业中得到广泛应用,我国社会正朝着数字化、网络化、信息化的方向快速发展。由于计算机技术以及互联网络技术的广泛应用,在互联网络中产生的数据非常大,可以说人们在享受信息时代为社会生活带来无限便利和快捷的同时,也逐步向数据时代步入,而海量数据的生成,对传统的IT信息处理技术和计算机结构框架来说,虽然没有致命的威胁,但是人们时时刻刻都需要对海量的数据进行存储、处理、传输、计算、搜索等任务,这对于当前互联网络和计算机系统快速响应终端用户的请求以提升服务质量来说,也是非常巨大的挑战。所以,对于当前大数据时代的计算机信息处理技术技术的研究与分析,对于提升IT系统运行效率,优化企业生产效率来说,具有非常重要的现实意义。

2大数据时代的数据信息处理挑战

大数据(Big Data)的定义需要从两方面理解,第一是从数量方面,是指需要处理或存储的对象的数据量非常之大,是传统信息处理技术在适当的时间内难以完成数据处理任务的;第二就是这些数据中包含了很多有用的信息,可以通过专门的将这些信息提取出来以指导和决策人们未来的行为。大数据是当前互联网络和计算机信息系统的大量应用的必然结果,而这样的必然结果,并不意味着是一种累赘,如果取舍得当,反而是一种非常重要的资源和无形财富。所以,大数据的产生对于现代的社会是一种机遇,对于经济的促进和发展也是良好的催化剂,如果一个企业能够抓住对大数据信息处理技术的核心技能,那么必将在未来IT市场上占据一席之地。那么,大数据对数据信息处理带来了哪些挑战?

首先,大数据带来了巨大的存储压力。可以以海量来称谓的数据量,对于当前的数据存储技术是非常大的挑战,传统的观念或者数据管理系统对于大数据的存储与管理已经捉襟见肘,如何良好地将这些海量数据有序地存储,并且选用优越的数据管理机制进行数据压缩、备份、管理等都是当前大数据背景下所需要考虑的问题。其次,数据查询问题。传统的直接查询的数据库管理系统已经很难应对海量数据的查询,一个存储量在GB级别的数据表的遍历查询都需要十几个小时来完成,所以如何快速地实现对大数据的查询和提取也是当前继续解决的问题。最后,数据安全问题。互联网络中各种系统层出不穷,各式各样的数据都需要相互传输,这些都为网络恶意攻击者提供了可乘之机。各种社会工程学攻击、病毒、木马、系统后门等恶意行为都时时刻刻威胁着大数据信息的安全,如何能够保证大数据中有效信息不被泄露或恶意篡改,这也是当前大数据时代亟须解决的问题。

3 大数据背景下的计算机信息处理技术

大数据的发展推动了计算机信息处理技术的快速发展,当前计算机信息处理技术为了能够满足大数据量的数据信息处理需求而得到快速更新。

3.1 分布式存储技术

分布式存储技术是当前专门应对大数据存储的问题而发展起来的。由于大数据的海量数据使得传统模式的单个数据库很难存储,同时应对管理以及备份等工作,分布式存储技术打破了传统的思维,利用网络专线或者高速网络将多个数据库存储服务器搭建在一起,形成一个总分形式的分布式存储系统,而上层的总与下层的分的特殊结构之间则是通过数据之间的逻辑关系串联起来。在结构上看,分布式系统中同一个数据链中大数据可能随机分配到不同的数据库服务器中进行存储,而由于数据库存储服务器彼此之间特殊的数据逻辑关系,看似分离的数据却又在逻辑上得到统一。分布式存储技术,不仅解决了海量数据的存储问题,而且多个服务器的共同服务还提升了大数据的高通并发性,解决了数据串行处理反应时间长的问题,大大提升数据处理性能。

3.2 数据挖掘技术

数据挖掘技术是主要应对大数据数据处理的而兴起的、体现人工智能处理的计算机处理技术。数据挖掘技术多采用仿生学的手段,按照人类思维的方式,将海量的大数据进行处理,最终从海量数据中过滤出对企业生产或决策有用的信息,进而指导人们的行为。数据挖掘的主要流程包括数据选取、数据预处理、数据挖掘、数据分析与评估。首先对大数据的有效部分进行选取,然后采用数据预处理的技术对数据中的无效数据、冗余数据、零数据等进行清洗和删除,然后采用数据挖掘的技术方法对有效数据进行挖掘,最后将有用的数据,通过专门的应用系统进行分析与展示。其中,数据挖掘技术是采用人工智能的思维方式而设计的数据处理技术,主要包括决策树、聚类、神经网络等多种数据处理技术,通过数据挖掘的处理,最终对清洗后的数据进行有效地分类,最后通过专门的应用系统对分类的数据进行分析、处理、展示,从而使用形象直观的方式展示有价值的数据信息。

在整个数据挖掘过程中,真正体现人工智能数据挖掘分析的是数据挖掘环节,数据选取、数据预处理以及后期的数据分析与评估都是数据挖掘之前的准备工作以及数据挖掘之后得到有用新的常规数据处理工作。数据挖掘技术包含了很多技术和算法,例如以二叉树原理为模型的决策树技术以及智能分类的聚类技术,这些都是以数据分类为核心的数据挖掘技术。决策树是以二叉树为基本模型,所有的数据都需要通过决策树的根节点,然后按照固定的算法分析,流向其子节点,依次计算指导最终的子节点。

某个数据经过该模型是,首先按照固定的算法进行计算,分析出该数据与父节点的差异度,然后根据结果流向其子节点。例如,一个对电子产品非常喜爱的人,在经过决策树模型之后,其会流向“购买”的子节点一类中。在数据挖掘过程中,经过选取和预处理的数据,都要经过决策树模型进行分类,最终落到其相关的区域中。决策树的模型相对比较简单,关键环节就是如何判断一个数据归属于哪一个节点。在决策树的C4.5算法的具体实现中,在对数据分类分析环节加入了信息增益比的概念,即待挖掘的数据通过计算信息增益比,比值比较高的进入到相应的节点中。简单地理解就是,源数据落入两个子节点的概率计算,概率高的即进入该分类节点中的可能性就比较大。

聚类技术则是另一种数据挖掘分类技术,与决策树专门比值计算不同,聚类算法是无目的分类。即采用聚类算法分析数据时,只需要将其定义分为几个簇群即可,并不用指定分成什么样在簇群。在聚类技术中,k-means算法是常见的一种算法,其核心思想就是通过指定的簇群个数,将源数据的数据生成对应个簇群中心,然后离该中心较近的即为该簇群数据。那么,在k-means算法的核心向就是如何生成簇群中心以及如何判断源数据与该簇群中心的距离。K-means算法采用欧式距离作为源数据与簇群中心距离的计算公式,首先按照分类个数任意选取对应个数的数据,然后将该数据作为每个簇群中心,然后将源数据与簇中心计算,在限定距离范围内的数据即可划分到相应簇群中直至结束。最后将每个簇群的数据计算其平均值,并且与原有簇群中心进行比较,如果不符合要求,则将该平均值作为新的簇群中心,再次从头循环分类源数据,直到簇群中心值与新的平均值比值符合一定的要求,即可结束算法处理过程。经过k-means算法的聚类过程,最理想的结果就是平均地得到了对应个数的簇群,从而实现限定簇群个数的聚类过程。

3.3 信息安全技术

信息安全技术是大数据时代对数据保护的一道屏障,是保障大数据有效保密的处理技术。一般的信息安全技术包括数据加密、身份认证技术、隧道技术的VPN网络等。当然,这些信息安全技术都是在一定程度上保障了数据信息的安全,并不能完全杜绝例如由于应用系统的自身安全漏洞而引起的安全问题。所以,在大数据时代下,首先要加强IT网络自身安全体系框架的构建,加强运维部门或相关部门的监控运维力度,同时要加强IT网络框架安全测试的理念,采购良好的、稳定的IT安全运维方案,从而有效地保障大数据时代的数据信息的安全。

在信息安全技术中,数据加密算法是一直以来都在广泛应用的算法,不同的加密算法在不同的数据环节中有不同的应用,例如在数据存储时,常用MD5算法对数据进行加密存储,该算法常应用于存储数据验证型的加密存储,例如用户密码。MD5算法是一直不可逆的算法,即按照原始数据添加、数据分解、数据初始化以及处理的过程,将任意长度的字符按照固定的MD5算法,经过多次的循环计算,变成128位长度的存储数据。在身份认证环节,当系统用户输入登陆凭证之后,系统的应用会将该字符串进行MD5加密处理,生成固定128字节的字符串进行传输,并与数据库中的存储字符进行对比,从而完成系统用户身份验证。MD5算法只是单向加密,一般情况下,不可能通过逆算法得到原始数据。而恶意攻击者则通过各种方法来破解讲过MD5算法机密的哈希值,例如彩虹表对比、密码嗅探等等。而在数据传输过程中,加密的数据是需要在接收端呈现出原始数据值的,那么就需要有解密算法对加密值进行解密处理,不同的算法,加解密的计算过程不一样,关键是在在加解密的密钥处理上。之前,一般的加解密算法采用的是对称密钥,即加密算法和解密算法的加入密钥是相同的,但是这样在具体实现上也存在一定的安全风险,对于密钥的管理工作却成了困扰系统设计人员的核心问题。现在的不对称密钥的加密算法,通过公钥和私钥的密钥管理机制,极大地提升了数据加密的信息安全程度,为当前大数据时代信息数据的安全保密性带来了极大的保障。

4 总结

大数据时代的计算机信息处理技术主要是针对海量数据存储、管理、备份、处理、提取以及有效保障数据安全、有效、保密的数据处理技术,只有信息处理技术顺应时代发展的需要,才能使人们在大数据时代享受更高质量的服务。

参考文献:

[1] 张允壮,刘戟锋. 大数据时代信息安全的机遇与挑战:以公开信息情报为例[J]. 国防科技, 2013(02).

[2] 赵英伟,郭凯. 浅谈信息处理技术的发展[J]. 信息通信, 2014(12).

猜你喜欢
数据挖掘信息安全大数据
保护信息安全要滴水不漏
高校信息安全防护
基于并行计算的大数据挖掘在电网中的应用
保护个人信息安全刻不容缓
一种基于Hadoop的大数据挖掘云服务及应用
信息安全
基于GPGPU的离散数据挖掘研究