数据挖掘技术应用于经济统计中的研究

2020-01-18 20:14田田山东省庆云县常家镇人民政府
环球市场 2020年30期
关键词:决策树数据挖掘分类

田田 山东省庆云县常家镇人民政府

众所周知,经济统计学属于郁闷综合性学科,与数学、统计及经济学等联系紧密,是围绕大量数据采用整理、分析与建模等方法,发掘经济领域数据规律。当前,数据挖掘领域,现代统计学还处于探索中,经济学理论探究没有数学成就大。然而实际上,统计与分析应用方面,对企业甚至整个社会大环境而言是非常重要的。因而,深入探究经济统计中数据挖掘技术的应用具有非常重要的意义。

一、数据挖掘技术内涵及应用优势

(一)数据挖掘技术内涵

社会经济快速发展的同时,海量数据信息不断涌现,而在经济统计工作中,面对庞杂的数据信息如何有效处理是面临的重要问题。当前,传统数据处理方法明显无法满足数据用户使用需求,为数据挖掘技术创造了条件。其不同于传统数据数量方法,传统数据处理方法是从数据分析表面入手简单分析各项数据,数据分析与处理的深度与广度不足。在庞大数据信息库中,应用数据挖掘技术科学搜索到价值与品质高的数据信息,再分析并处理这些信息满足用户使用需求。社会经济发展中,数据挖掘技术也可解决经济统计难题,便于数据使用用户充分应用此类数据。另外,应用数据挖掘技术还可有效改善数据质量,使得数据使用效率不断提高,进一步增强了数据间的联系。

(二)数据挖掘技术应用优势

(1)该技术有很强的综合能力。众所周知,经济发展与数据统计之间联系紧密,两者之间相辅相成且相互影响。因而社会经济发展中必须要重视数据统计的应用。参考数据统计结果,企业管理部门有效制定决策制度。因各部门细化与管理方式不同,使得各类数据有不同的统计需求、类型与数据形式,导致企业无法顺利进行各项运营管理活动。因而,经济数据统计中数据挖掘技术的应用,自由转换数据形式,满足各部门实际工作需求,为经济发展提供推动力。(2)数据统计效果强。经济数据统计中,数据挖掘技术的应用是非常重要的,其可从庞大数据库中统计分析经济数据,使得数据从无序变为有序,数据科学性与有效性得到了保障。应用数据挖掘技术,一定程度上还可深入发掘数据库中价值高的信息,充分发挥经济统计数据作用,使得数据信息管理效率明显提高,获得更加真实而有效的经济统计信息,为顺利进行经济数据统计活动奠定了良好的基础。(3)数据挖掘技术有明显的适用性且范围广。经济数据统计中,数据挖掘技术可应用于各部门以此有效整合相关数据信息,符合统计需求,为企业提供有效的参考数据顺利开展各项经济活动。所以,积极推广数据挖掘技术充分发挥其作用显得尤为重要。

(三)经济调查分析中数据挖掘技术作用

经济调查分析中数据挖掘技术的作用主要表现为描述与预测作用。其中前者主要是划分数据以及应用相关公式分析对比数据,类聚是分类处理相关数据,数据分类分析法则包含典型的数据分析方法,其是通过发现数据典型特点再对比分析。分类与回归是两种主要预测方法,其中分类是将数据化分成不同类型再处理,可选用贴标签与各种算法。而回归法不同于分类,其是分析连续数据,其包含线性与多项回归等分析方法。聚类则属于一种分类管理,数据统计前为了提高统计效率,分类处理所收集的数据,通过分类有机划分数据信息,部分数据对经济统计没有作用分类过程中就会被淘汰;而有的数据则被分到一类继续用于分析研究。例如,群众消费情况研究脱出中,可分类管理收入不同的群体,参考经济收入及消费水平进行合理分类,做好各层次群体实际消费水平的统计。此外,经济统计中,降维方法的效果也是非常明显的,经济统计所需的时间、人力与物力成本比较高,且包含很多统计数据与指标,应用降维技术检索处理。降维方法比较多,比如主成分降维以及因子分析等方法。经济统计中数据挖掘技术应用日益广泛,尤其是银行信贷风险调查中取得了很好的应用效果。

二、经济统计中数据挖掘技术具体应用

(一)应用于调查数据预处理

经济数据统计活动中,经济数据预处理是比较常用的处理方法。数据预处理根本原因在于挖掘技术自身受很多经济条件影响,无法完全代替经济系统收集作用,只是智能化分析基础信息并在统计调查工作中获得复杂数据。处理内容涉及很多种类,比如处理不规范、处理错误以及处理差距大的数据信息。本质上来讲其都属于“数据清洗”,具体方法包含插值法与均值法等,如果数据存在明显异常且数量比较少就可直接删除。

(1)搜集到的数据并非是完整的,有的数据不统一,有的由噪音,甚至还有的数据出现空值。作为一种基础处理方法,数据预处理手段可体前对经济统计数据信息进行处理。实际工作中,其主要由数据清理、集成及变换等内容构成。

数据清理。其主要指经济统计数据信息中,采取有效方法去掉不完整的、有噪音与空值的信息。通常,主要方法为均值、平滑、预测与频率统计等四种方法。实际工作中要根据实际情况合理选用数据信息统计分析方法。经济统计工作中,数据存在噪音抑或是数据点是空值,可选用均值法清理数据。数据中噪音与空值,也可选用平滑法处理。其不同于均值法,平滑法是通过加权平均数代替均值法平均数,其充分考虑数据对结果权重造成的影响。该统计方法的应用利于获得更加真实的计算结果。均值法是利用均值完善数据,以此获得更加准确的统计数据分析结果。两种方法有不同的特点,具体要结合实际情况合理选用数据处理方法。

(2)数据集成。其简单来讲就是数据搜集,分类整理地区内所有经济生产总值并集中讨论,这就是应用数据集成思想的过程。比如,应用该思想计算省级单位国民生产总值与区级国民生产总值。实际工作中,对于常见问题与处理方法主要为:首先模式集成。当前,互联网技术水平不断提高,应用计算机发掘数据是比较常见的模式。因数据库间涉及并列与包含等复杂关系,怎样判断同名文件夹内容是否相同,集成模式是十分必要的,以此创造便利条件。另一方面,冗余问题。其是根据相关关系判定的,具有一定关系的具体对象,公式中代入方差等决定性因素,判断r值与1、0之间的关系,越接近于1绝对值,相关性就越大。反之密切度就越小,比如我国房价与人民工资水平间的关系,就可采用这一方法进行研究。

(3)数据变换。其主要指采取相应的方式方法将数据变换为满足信息挖掘要求的数据。其主要包含数据规范化与泛化两种。其中泛化主要指应用高层次数据代替低层次数据。其包含数据连续性。当前处理方法无法对数据进行连续处理,使得数据离散。其具体是利用区间划分,以标号代替部分数据保持数据连续性。实际计算过程中应尽可能缩减数据搜集梁,此过程也是概念分层。

(二)应用决策树方法

统计工作中应用数据挖掘技术,首先应系统化分析相关数据,数据完成分析后进行输出。采用该方法划分数据类型,构建决策树结构具有非常重要的意义。首先,分析数据基本模型,再选用训练集构建决策树,精简处理数据决策树。其次,合理划分决策树,从根部开始划分数据,然后是树干与树丫等部分的数据分类,直到所有输入的数据符合要求。

应用决策树进行数据分类时,首先要构建完整的决策树结构。(1)构建分析输出基本模型,借助训练集构建一颗决策树并做好精简。(2)对完成构建的决策树做好数据分类,从其根本开始想树干、树丫延伸逐步分类,所输入的数据与条件设置相符合后才能停止,此过程也属于递归过程,逐步输入数据。实际工作中应用决策树方法时其停止条件主要有:即一个节点所有数据都属于同一类别,此时数据停止;另一方面,没有分类属性可继续再次分割数据。数据挖掘预测与分类中,可应用决策树分类方法解决实际遇到的问题。构建结束后,根据用户使用需求,用户适当地调整构建完成的决策树,确保决策树分类数据信息符合用户使用需求,减小决策树数据输出变化,增强其稳定性,保障信息质量。

比如某地企业每年上报数据构建序列模式,获得企业当年预测值。对比企业上报数据与预测值得到差别率。假若该差比率高于20%,则企业为A类;差别率在10%-20%之间,就是B累;低于10%属于C类。结合企业规模变化率与可能出现的经营事件构建决策树。假若企业上报数据与预测值间差距比较大,就要将其做好主要调查对象。

(三)应用遗传算法

其是根据生物自然及遗传机理,随意抽取的一种算法。实际应用过程中要综合考虑各类问题,加强被指定群体信息数据采集,整合分析隐含信息前提下获得最终结果。因该算法具有明显的隐含性,因而可与其他模型结合起来使用采集隐含数据。然后对现有挖掘的数据信息进行深入分析,并应用于实践中。此过程中,因经济问题并非停止不变的,其内部联系复杂,参考遗传算法,从源头向下延伸获得有效的数据,对数据信息从整体上进行分析,保障经济问题更加而具体,确保相关人员直观地处理问题,有效解决各类隐性问题。在此基础上,确保顺利进行统计工作。

三、数据挖掘技术未来发展趋势

未来社会发展中,数据挖掘技术的应用将更具有效、综合与适用性特点。为了系统化认识数据挖掘技术价值,本文将从以下几方面发展趋势进行探究研究,希望未来发展中数据挖掘技术能够充分发挥其作用,为统计工作可持续发展目标的实现提供推动力。

(一)信息管理有效性

对于数据信息应用数据挖掘技术进行深层次加工,有效开展统计工作。其有明显的目的性,且实际应用中,统计数据长期积累过程中深处理加工基础数据。实际应用时要结合用户数据使用需求,从不同角度对所用数据信息进行分析,分类统计数据信息,对原有数据库进行科学整理。利用该形式,还可提高数据信息管理效率。

(二)数据分析综合性

从本质上来讲,作为一项系统化数据统计工具,数据挖掘技术并非单一化的数据分析,可满足不同使用者的不同信息需求。近些年,我国社会经济保持快速发展势头,此种情况下经济管理中统计分析社会内部经济相关发展数据。此过程中要注意,不同数据信息有不同的管理权限及处理权限,所以面对多元化需求,相关经济管理部门要合理低统计分析经济管理内容,促使数据信息顺利转换为不同数据形式,根据信息来源与统计计算方法,对其可靠性做出科学评估,从而获得更加准确的数据统计信息。

(三)技术适用性强

国内经济管理部门,职权管理工作表现的不够集中,各类经济管理部门对数据信息需求量及类型也有明显的不同。很多地区,对于统计活动,各经济管理管理实施的传统方法有明显的局限性,难以利用经济管理活动为其提供高品质的服务。实践工作中,重复性统计或统计不完全的问题也是比较常见,直接影响到经济数据分析的有效性。数据挖掘技术的应用可有效避免该问题,确保获得的数据信息更加准确,整合处理数据挖掘技术,保障数据资源的丰富与多样性是十分必要的。

四、结束语

综上所述,现代社会发展中,经济发展速度健康,行业内部数据挖掘有了更多的要求。同时互联网技术的发展,为数据处理提供了新的渠道,更是对统计行业带来的一次挑战,有效应用数据挖掘技术,能够为行业顺利开展各项工作创造便利条件,从根本上推动社会经济稳定发展。

猜你喜欢
决策树数据挖掘分类
改进支持向量机在特征数据挖掘中的智能应用
基于决策树和神经网络的高血压病危险因素研究
分类算一算
探讨人工智能与数据挖掘发展趋势
数据挖掘技术在打击倒卖OBU逃费中的应用浅析
分类讨论求坐标
决策树和随机森林方法在管理决策中的应用
教你一招:数的分类
说说分类那些事
软件工程领域中的异常数据挖掘算法