基于云计算的WEB数据挖掘关键技术的研究

2016-07-22 18:57刘红霞
电脑知识与技术 2016年16期
关键词:云计算数据挖掘互联网

刘红霞

摘要:Web数据挖掘技术也伴随着计算机技术的成熟和发展而在不断的进步和完善,它的运用范围也涉及各个领域,并起着重要的作用。云计算是数据存储的革命性突破,使得存储的能力和存储的安全性都得到很大的提高。从云计算着手分析Web的数据挖掘技术以及它所带来的影响,对计算机和互联网产业的发展都有重要的意义。该文分析云计算的特点结合Web技术,将云计算和Web数据挖掘放在同一纬度上进行深度的探究。

关键词:云计算;Web;数据挖掘;互联网

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2016)16-0015-03

互联网是一个革命性的产业,它打破了人们的生活习惯和格局,同时随着互联网用户的不断增长,它的数据网络和数据信息也越来越详细和丰富。就如何在这样大数据之中提取出来有用的数据信息就是Web要做的工作,在大量数据挖掘出来后数据本身之间的关联性以及如何将这些挖掘的数据再次的运用到实际生活中这都是Web数据挖掘技术要突破和解决的问题。当前,大规模的数据在一个计算机上几乎无法操作了,科技发展和社会需求下的产物云计算应运而生,它处理和存储数据的能力非常强大,并具备对所存储的数据进行分析处理以及计算的超强能力。

1 云计算的应用及技术特征

1.1 云计算的应用现状

Web也是经历了一个漫长的成长和发展的过程。它在互联网技术和电子商务高速兴起的基础上,基于人们对网络的应用更加广泛和频繁,带动了Web2.0的一场兴起浪潮。数据的需求对互联网企业来说成为了竞争的核心内容,尤其是一些需要根据客户目的性需求而开设的网站,例如看网络视频的网站就更加的需要数据化来分析和开发有客户需求的产品。云计算的诞生解决了很多技术上的难题。我国的互联网用户非常庞大,且还处于增长的趋势,这就使得很多的大型企业和公司都在使用云计算来进行数据的分析和研究。

1.2 云计算技术分析

云计算主要就是对数据进行管理,它所处理的核心也就是数据,因此它和其他的计算机技术存在差异,具体如下:

一是,具有广泛性,云计算技术它最重要的就是存储技术,采取了大量分布存储的模式可以大大地提高存储的速度和存储的能力,同时也具备较高的性价比。它能够很精准的进行存储,非常实用。

二是,对数据的管理能力强,对大数据的跟踪监控具有时效性,并能够随时的处理数据分析数据,效率极高,也可以对数据库的信息和数据进行有针对性的筛选和查找,管理技术非常先进。

三是,应用到先进的编程技术,技术因素是云计算能不能达到良好用户体验的重要因素,它是支撑整个云计算系统良性高速运行的核心,这就需要整个的编程技术能够满足用户的需求和良好体验。目前Map-Reduce编程模式用得较多,它开始是以一个树枝的结构呈现出来的,分支后还将使用其他的编程模式来执行。

四是,虚拟化技术的灵活运用。云计算技术对虚拟化技术运用很广泛,虚拟化技术能够将计算资源进行合理的分配,它可以独立各个不同级别的系统,将各个系统进行独立化也将数据分成若干独立的部分,形成了一个动态的独立的分工体系。它使得整个的系统具有很大的弹性,能够很灵活的进行动态虚拟资源的使用,节约成本,由于他的结构的弹性和灵活性使得它能够降低管理的风险。

2 Web数据挖掘的发展现状

2.1 Web数据挖掘的概念

所谓的Web数据挖掘,即是Web、数据挖掘、计算机语言与信息学等技术与方法的融合,数据挖掘与Web得到融合之后,便能够体现出较好的综合性。对挖掘对象展开较为全面的分析之后,Web数据挖掘还可以被分为结构、内容与使用等多方面内容。其中,对于内容来说,其是指通过人工化模式组建,在Web环境下,从对应的文件夹当中,完成应用者信息的提取;对其结构来说,其是指通过人工化模式组建,对各种类型的结构实施挖掘,继而利用不同方式完成信息的提取;对于使用挖掘来讲,其是把被挖掘的对象集中在日志文件当中,然后以此为突破口,将站点用户量等数据展开挖掘。由此可见,数据挖掘也就是利用技术的手段来对Web文档中的数据进行提取,也就是根据现有的信息资源来进行分析和预测它的发展前景。Web数据挖掘技术并不是单一的某项技术而是多个技术的共同作用。

2.2 Web数据挖掘的分类

Web数据挖掘的分类方式有很多种,从它的兴趣类别来分可以分为下面三个部分,也就是Web数据挖掘的内容、结构和用法。从内容上说,就是Web数据挖掘的对象,也就是我们数据信息的载体,包括我们所获取的一些视频图片,音频文字等等的一些实质性的信息。内容的挖掘也可以细分的,主要就是分为纯文本的挖掘和多媒体的挖掘,这样细分能够更好的区别挖掘的对象。从Web数据挖掘的结构来说,就是获取这些内容的所挖掘的结构对象,主要就是区分挖掘内容是属于页面结构还是组织结构,同时还要对数据所形成的数据链也进行分类,并对这个的数据挖掘工作的效率和准确率进行提高。从挖掘用法上,也即是对Web的文档和网页中的内容和资料,进行分析和研究,来通过原始的数据对信息资源的挖掘区别用户的类型,将用户的类别进行分类,发现更多的潜在的客户。

2.3 Web数据挖掘的流程

Web挖掘流程会受到很多因素影响,它因为本身的挖掘方式与对象和传统的挖掘模式差别较大,因此流程也存在很大的差异,Web数据挖掘的流程有多个方面:将数据挖掘技术和Web网页两者进行融合还是很困难的,因为Web数据挖掘技术并不是几个技术的简单叠加,它是一个整体,包含可以对信息进行检索、选择需要的信息并对信息初步的处理、找到模式并进行分析这一系列的过程。对信息的检索也就是查找就是通过对文档中的信息和各种网站的一些新闻、日志等等数据信息进行分析。第二阶段就是对第一阶段所获取的信息进行甄别和筛选,剔除一些没有价值的信息和数据,并将有用的数据信息进行简单的处理。最后一阶段就是对所预处理的数据和信息进行进一步的筛选和验证,提取出有价值的信息。这个过程既需要机器的自动化来完成也需要通过人工的甄别来实现。

3 基于云计算的Web数据挖掘

3.1 基于云计算的Web数据挖掘体系架构

Web数据的挖掘它是分为几个点的,数据的挖掘体系也就是这几个节点之间存在的一系统框架结构的相关联,云计算使得Web数据挖掘的构架的节点相互作用,相互影响,形成了一个较为成熟的架构体系。结构图如下。第一个节点是主控节点,它主要是连接了客户端到各个节点的纽带也是一个中枢纽带。第二个节点是算法节点,它的任务是保证在数据运行中有对应的算法支持,相当于一个算法的仓库。第三个节点是数据节点,是一个庞大数据库来存储数据信息。第四个节点是服务节点,它主要的作用就是执行主控的任务和反馈计算后的结果。

分析图1我们可以发现,根据对Web数据挖掘体系的功能进行分析研究可以将该架构分为若干个层面。

一是,服务层。服务层是一个将用户的结果通过Web数据挖掘体系构架实现数据的挖掘,并将结果呈现给用户的一个过程。

二是,控制层。控制层是由主控节点来实施的通过对用户所反馈的结果的分析,找出并提供最合适的算法,做到数据和算法的契合性。

三是,算法和数据存储层。这个层面的主要作用是对提供的数据和反馈数据及所运用的算法进行存储。它不仅就所提供的原始数据进行存储对挖掘结果也会进行存储。算法和数据存储区还加大了数据和算法丢失的概率,即便系统有问题也可以轻易地从存储区里找到要的数据信息而恢复原本的数据。

四是,业务处理层。它是主控的数据在算法计算下的结果,将存储层的数据进行挖掘通过主控点来重新分配数据,结果再由服务节点返回到主控节点的一个过程。

3.2 基于云计算的Web数据挖掘算法

基于云计算的Web数据挖掘算法步骤如下:

第一步,根据数据挖掘服务请求来对置信度阙值进行确定,一般这种服务请求由Web浏览器提出的。

第二步,客户端向主控节点发出的任务,数据存储的节点就会向主控节点申请数据并返回有服务节点处理过后的数据。

第三步,主控节点的数据将发给算法的存储节点,算法节点会根据所存储的大量算法,筛选出最佳的挖掘算法,并将这些算法应用到每个服务节点。

第四步,每个服务节点都会有针对性地对各个数据进行筛选,从而将数据库中的数据进行系统的分类和规整,用Apriori算法,得出不同数据库的一部分频集。

第五步,将服务节点处理的这些结果反馈主控节点上,得出整个数据库全局的频集。在将这些发送到每个服务节点之上就可以得到更加准确的局部频集。以此类推,再将服务节点处理的结果反馈到主控节点上,得到更加精准的全局的频集。

第六步,把第五步的过程重复操作,直到生成符合用户定义的频集,再根据置信度阈值生成关联规则,而将关联规则也发送给主控节点。

第七步,主控节点将得到的关联规则返回给用户。

3.3算法结果分析

算法的结果需要实验数据的支撑,根据分析可以看到算法的效率和数据量之间的一个正相关关系。传输过程中的时间也存在差异,一般传输算法的时间要远短于传输数据的时间。Web数据挖掘算法和其他的算法有明显的不同,但是它也可以通过对其他的算法的改进来得到自己的全新的算法。Web数据挖掘算法是一个系统的算法,每个节点之间都有相关联性,不会出现对有效关联规则的遗漏现象。

4 总结

Web数据挖掘就是对我们的在Web文档和互联网其他途径所获取的大量的信息进行筛选分析并加以利用。它可以根据人们的习惯、兴趣、来了解人们的需求。现在在网络上的信息量还在快速的增长,对计算的能力和存储的能力都是考验,如何很好的挖掘出有用的信息数据,打破技术的局限性和瓶颈。就是要将云计算的存储能力结合网络平台进行快速推广和运用。云计算下的Web数据挖掘可以通过网络的优势方便统一的管理和调度,可以充分的利用云计算的存储能力和空间,将多资源结合Web数据挖掘网络体系进行全面的开展。提高了对网络资源和信息数据的利用率也提高了挖掘数据的效率和能力。

参考文献:

[1] 许艳丹,张前进,王志宏. 数据挖掘在物联网中的应用研究[J]. 周口师范学院学报,2016(2).

[2] 朱兴荣. 数据挖掘技术在网络空间课堂教学评价中应用[J]. 电子商务,2016(4).

[3] 洪丽平. 基于数据挖掘技术的图书馆服务研究[J]. 福建电脑,2016(3).

[4] 任争,董莉丽,史泽,等. 数据挖掘技术及其在过程监控中的应用[J]. 黑龙江科技信息,2016(9).

猜你喜欢
云计算数据挖掘互联网
基于并行计算的大数据挖掘在电网中的应用
从“数据新闻”看当前互联网新闻信息传播生态
互联网背景下大学生创新创业训练项目的实施
实验云:理论教学与实验教学深度融合的助推器
一种基于Hadoop的大数据挖掘云服务及应用
基于GPGPU的离散数据挖掘研究