计算机数据挖掘技术的开发问题研究

2022-11-20 22:21李贯华
电子测试 2022年18期
关键词:网页数据挖掘数据库

李贯华

(齐鲁医药学院,山东淄博,255300)

1 计算机数据挖掘技术概述

1.1 大数据的概念与特点

所谓大数据技术,简单来说,就是涉及到的数据、资料规模巨大,现阶段的主流软件工具,无法在短时间内,对巨大的数据量及时的管理与处理,更是无法在合理时间内对数据进行整理与分析,造成数据最终服务于公司运营决策的依据。

大数据在显现上具有四个典型特点,分别是数据海量性、数据的多样性、数据价值密度低且速度快,大数据技术可以对海量数据信息进行掌握,并以专业化的方式进行处理,将海量数据信息转变为盈利,在信息时代的背景下,大数据技术的价值还会不断地提升。

1.2 数据挖掘技术概念

数据挖掘技术属于对数据进行处理的一种技术,通过算法来在数据中的隐藏信息进行挖掘的过程。通常是面对数据量较大,信息不完全且模糊的情况下,通过专业的技术算法,来提取出需要的数据,将大量的不完全有用数据转化成有用的信息。这种技术比较常用在市场分析、商务管理、工程设计之中。数据挖掘技术的主要功能就是描述和预测检验,简单来讲,数据挖掘技术可以对完成的数据进行查阅,并在数据基础上对趋势进行预测,对决策方面提供重要作用。

1.3 数据挖掘技术流程

数据挖掘技术在执行的过程中,通常有八个步骤,从信息收集到知识表示。首先是信息的收集方面,以用户为中心,结合用户需求的数据需求特点,来对目标数据进行分析;其次是数据集成方面,由于所分析的数据并不完全相同,也不是完全满足客户需求特点的,所以面对这些数据就需要从逻辑/物理角度整合,以此来保障数据满足客户的需求;在数据规约方面,数据挖掘方式在对数据进行处理的过程中,需要较长的时间来开展,而数据挖掘技术面向的通常是大量的数据,数据规约技术就采用数据集的规约来进行表示,这种方式可以更好地保证分析出来的数据,最大限度地保持原有数据的完整性;数据清理方面,因为大量数据分析的时候,容易遇到不完整的数据,这时候就需要对数据进行清理工作,保障数据的完整性、精准性,以此来将信息存入数据库之中;在数据变换方面,在面向不适用于数据挖掘技术的数据时,就需要采用数据概化、平滑聚焦等形式,来将数据转换成适合数据挖掘技术的数据;在数据挖掘的过程中,主要采用统计方法、决策树、模糊集等方式来进行处理,以适合的数据分析工具来分析;在模式评估方面,需从商业的角度,让数据服务目标行业的专家,来针对数据挖掘结构进行判定;从知识表示方面,数据挖掘技术分析的数据信息,采用可视化的方式来提供给用户。

1.4 数据挖掘技术开发

1.4.1 传统方法的数据统计

传统方法的数据统计是计算机数据挖掘技术中国最为常见的,比如抽样分析法、统计预测法等等。使用计算机数据挖掘技术,来对大体量的数据进行统计分析,这种方式处理的数据精准性更高,可以更为准确对市场进行预测。在以前对大体量数据进行处理的时候,容易出现效率低下、数据缺乏准确性的特点,计算机数据挖掘技术的出现,能快速缩短数据处理时间,更好地提高数据的使用效果,让数据发挥出应有的价值。

1.4.2 可视化技术的开发

在大数据时代,计算机挖掘技术的使用可以保障数据的精准度,让所采集到的数据更好的达到预期的标准。对数据的分析也是要发挥出数据的价值,这就需要充分发现数据背后的意义与特点,加大分析力度,或者通过数据表格等方式来进行分析,可以直观地感受地感受到数据的变化情况。可视化技术是计算机挖掘技术中的辅助技术,可以直接将数据涵盖的特点表现出来,多数是以数据图表、散点图等形式表现数据特点,之后在进行分析,可以提高数据的直观利用效率。尤其是现阶段的计算机在数据存储上,是无法将数据显著特征体现出来的,这就需要通过可视化的图标形式展现,数据挖掘技术在可视化展示方面的效果最为明显。数据挖掘的可视化技术可以让数据在实际运用中更为直观与便捷,并在不断探索中增加数据维度,为实际应用中数据作用的发挥提供强大的技术支撑。

1.4.3 决策树技术的开发

决策树技术属于预测模型的算法,其涵盖大量的数据,主要目的是对这些数据进行有目的的分类,并在数据中找到有价值的信息。决策树技术从本质角度来讲,就是归纳学习,最大的特点就是描述简单、对数据分类的速度快,尤其适合对大规模的数据进行处理。在计算机快速发展的背景下,决策树也出现了新的方法,就是SLIQ和SPRINT,这两种方式可以在面向海量的数据系时,直接的进行数据分析的工作,并对数据进行归纳,通过决策树来得出最后的数据结论。这两种方式都是现阶段决策树中新型的方法,可以更好地进行数据的连续分类,从根本上保障数据分析质量。

1.4.4 遗传统计技术

遗传统计算法属于一种仿生全局优化方法,从生物学遗传角度开展,对遗传数据进行分析可以看出,计算机数据统计技术对遗传学数据方面也可以进行高效的分析,可以从宏观的角度来给出生物突变与数据之间的结论。数据挖掘技术在对数据进行分析处理技术过程中,需要对数据进行系统的分类,重点将无用数据进行丢弃,保留合理的数据进行储存与分析,并在这一基础上打造数据整合体系,这种方式,在数据长期使用方面起到重要的优化效果。我国初期进行数据挖掘技术方面的开发,主要就是定位应用在初级数据的统计,而这一技术的发展应该侧重的是服务为主的方向,尤其是在技术快速发展的背景下,决策者可以通过计算机已有的数据库来使用数据,这种现象也提升了数据挖掘技术的优势,让其在实际应用中的发展备受重视。

2 计算机数据挖掘技术开发存在的主要问题

2.1 计算机数据挖掘方式与用户交互问题

不用用户所按兴趣的内容也有明显的差异,数据挖掘技术应该对数据进行更广范围的覆盖,并在其中发现任务,在数据分析的时候,以多样化的形式来进行分析,但任务会通过不同的形式来对同一个数据库进行使用,这就需要提升数据挖掘技术的覆盖范围。同时,很难对数据库中发现的内容进行精准的把控,所以数据挖掘技术应该注重交互性。在面向海量数据的数据库时,就采用适合的抽样数据分析,通过交互的形式来达到对数据的探索。这种交互的数据挖掘形势,应该尊重用户聚焦探索,根据数据回馈结果,来进行数据精炼挖掘。在遇到特殊情况的时候,也可以通过交互的范式来进行交叉分析。面对计算机数据挖掘方式与交互方面存在的问题,可以通过对不同粒度与角度进行数据观察。

2.2 计算机数据挖掘技术开发算法性能问题

为了保障计算机数据挖掘技术可以从数据库中更为有效地进行数据提取,就应该保障计算机数据挖掘技术的有效性与可伸缩性,这也是保障数据准确的重要特点。简单来说,就是数据挖掘在大数据库的使用过程中,需要对算法的时间进行可预计,而且是可接受的范围,从数据库的角度来看,这两个特点也是保障数据挖掘可以得到实现的关键因素。现阶段很多数据库自身容量比较大,其分布的数据更是较为广泛,数据挖掘的计算方式将数据进行划分,在分类划分之后分别进行处理,最终价格结果进行结合来分析。同时,数据库的更新与增量算法结合,就没有重新对全部的数据进行挖掘了,这种方式可以渐进的对数据进行更新,直接在已发现数据的基础上进行加强,过程需要的成本相对较高。

2.3 计算机数据挖掘技术中数据库多样性问题

现阶段的关系数据库广泛运用,面向关系数据库应该有针对性进行开发,以此来满足数据挖掘系统。但现阶段很多其他数据库中,存在多样化的数据,比如多媒体数据、时间、空间数据等等,数据类型所具备的多样化特点,与数据挖掘的目标存在差异,所以想要通过单一系统来开展所有数据的挖掘是不可能的。在面向不同特定类型数据进行挖掘分析的时候,就应该制定特殊的数据挖掘系统。现阶段计算机网络中的局域网和广域网,在数据源的连接上也不是单一的,通过多个数据源的链接,来形成庞大的且包含不同数据类型的数据库。通过不同的数据源来对数据进行发现,也对现阶段的数据挖掘技术提出了新的挑战。

2.4 计算机数据挖掘技术实践中的问题

计算机挖掘技术在面对新建立的网页时,由于新网页的用户相对较少,所以数据挖掘中就会将其视为不重要的网页,但很多老网页,因为前期存在大量用户基数,所以数据挖掘的时候就容易将其视作重要网页。在网页的页面进行载入的过程,是用户在发出指令到网页显示所使用的时间,这种时间会直接影响网站性能。如果网页的载入时间过长就会让用户放弃访问,而在数据挖掘技术使用过程中,就容易出现错误的判定。在搜索引擎返回结果方面,每次点击选择就是网页重要性的评判标准,但这种方式明显存在不合理,数据挖掘技术在网页的数据分析上就容易出现失误,导致数据精准性交叉,难以通过数据来对真实情况进行直观的反应。

3 计算机挖掘技术的开发趋势

3.1 数据挖掘技术开发应用的探索

早期对计算机数据挖掘技术的应用,集中在对企业竞争力提升方面的帮助,但随着数据挖掘技术的不断提升,其应用的范围也越加广泛,比如常见的金融分析、电信数据等等。尤其是近几年,电子商务市场成为零售行业的主流,数据挖掘技术的应用也在不断地拓展,虽然数据挖掘技术在特定的数据分析方面存在局限性,但其发挥的作用也是巨大的,所以,未来数据挖掘技术的发展方向,可能会向着针对特定应用数据方向发展,以特定数据挖掘技术来提升针对性数据分析的精准性与应用效果。

3.2 可伸缩的数据挖掘方式

相对于传统的数据分析方式,计算机数据挖掘技术的出现创新了数据处理的方式,但这也对数据挖掘技术提出了要求,必须可以对大数据进行高效的处理,也需要对数据进行交互式的处理。现阶段计算机网络的快速发展,信息化技术成为人们生活中的主流,在这种背景下的数据量会快速激增,所以在数据挖掘方面的可伸缩性算法至关重要,尤其是在面向单独数据与集成数据方面的应用。所以发展的方向就会是在约束挖掘基础上实现。重点是服务于增加用户交互数据下,对计算机挖掘技术的数据处理效率提升方面,对控制方法进行更新,使用用户说明与使用约束,来利用数据挖掘技术来检索按兴趣的模块,有针对性地开展数据挖掘工作。

3.3 计算机数据挖掘与数据库系统的集成

在信息处理的过程中,离不开数据库系统、数据仓库系统,让计算机数据挖掘技术在这类系统中可以高效开展工作对数据质量至关重要。众所周知,数据挖掘技术的最佳体系,就是与数据库系统的紧耦合方式。将数据挖掘技术所服务的各项事务、数据进行集成,在同一框架中实现联机分析,这种方式可以充分保障数据的获得性,也是数据挖掘技术伸缩性、可移植性特点的体现,更是对多维数据进行分析的重要方式。

3.4 计算机数据挖掘的标准化

提升数据挖掘多方面的标准化工作,可以从根本上提升数据挖掘技术的质量,避免在实践中出现因为网页等方面的问题。对数据挖掘系统进行系统化的开发模式,可以让数据挖掘系统与功能间之间实现互相操作的方式,通过这种方式来对数据挖掘系统的实际应用质量与效率进行提升。同时还应该注重可视化数据的数据挖掘,通过系统化的开发,让可视化技术可以将数据挖掘的详细情况进行直观体现,以此来规避数据挖掘技术存在的弊端与局限性,同时也有利于对数据挖掘技术的推动,让其成为数据分析最为基本的工具。

4 结语

通过上文的研究可以发现,现阶段计算机数据挖掘技术备受关注,其在各个领域都有着广泛地运用,诸多学者都对其进行研究,并取得了显著的呈现。但数据挖掘技术开发与应用上依然存在问题,本文主要对存在的问题进行研究,并阐述计算机数据挖掘技术未来的发展方向,计算机数据挖掘技术的发展是长远的,这就需要在实践中不断地进行探索,以此来更好完善与创新数据挖掘技术,让其充分发挥出数据的价值,为市场经济的发展提供支撑与依据。

猜你喜欢
网页数据挖掘数据库
基于数据挖掘探讨慢性肾衰竭处方规律
基于数据挖掘技术的非均衡数据分类研究
基于HTML5静态网页设计
搜索引擎怎样对网页排序
数据库
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
数据库
数据库
数据库