大数据下的机器学习算法探究

2020-12-29 11:57潘颖辉
电脑知识与技术 2020年32期
关键词:机器学习大数据算法

潘颖辉

摘要:随着信息库中的信息总量日渐庞杂,信息处理变得越来越困难,互联网逐渐步入了大数据时代。大数据顾名思义,意味着互联网使用者需要管理、分析和反馈日常生活中产生的大量数据。而机器学习算法对于数据收集,分析和集成非常有效。

关键词:大数据;机器学习;算法

中图分类号:G642        文献标识码:A

文章编号:1009-3044(2020)32-0187-02

1 大数据的特点

大数据的特点最初由维克托和肯尼斯在二人编写的《大数据时代》中提出,分别为volume(数据量大),velocity(输入和处理速度快),variety(数据多样性)和value(价值密度低),俗称为“4V”特点,这种说法与归纳受到了大家的广泛认同并在后续研究中被频繁引用[1]。

2 传统的机器学习相关理论

机器学习在近年来研究人工智能的技术中占据的地位和比重已经越来越大,并发展成了一门涉及统计学、凸分析(Convex analysis)、概率性等多领域的交叉性学科[2]。

2.1 机器学习类型

机器学习的类型大致分为监督学习、半监督学习、无监督学习、强化学习、自学习、异常检测和机器人学习。

监督学习是用一组现有的培训数据样本使被监督的对象达到应有性能的学习过程,大多数是用于学习一个具体功能的机器学习任务。在监督学习中,每组示范数据的例子都包括输入对象和期望的输出值。半监督学习使用的训练数据介于没有任何标记的训练数据和有完全标记的训练数据之间。无监督学习从输入的未标记的一组数测试据中查找结构和学习,通常通过识别数据中的共性来判断新数据中有无这种共性并做出反应,基于这种特点,无监督学习通常被运用于统计和总结。强化学习是包括监督学习和非监督学习在内的三大机器学习范式之一。自学习是一种没有外部反馈和监督的学习,是有自学习能力的神经网络,被称为Crossbar自适应阵列(CAA)。异常检测是对于那些观察结果与大多数数据结果不同的数据的怀疑和识别行为。机器人学习是机器学习算法在学习过程中自动生成的相当于“课程表”的学习经验序列表,通过计算机的自动探索和交互积累经验和获取新技能[3]。

2.2 机器学习主要算法

机器学习中算法主要分为决策树算法、SVM算法、朴素贝叶斯、Adaboost算法和K均值算法。

决策树算法可用于直观地表达决策和描述数据,其中的主要算法是ID3算法和C4.5算法。二分迭代法器3(ID3)是C4.5算法的前提,其用处是在数据集里处理和生成决策树。C4.5是ID3算法的扩展,C4.5由于其生成的决策树可在分类部分使用常常被当作统计分类器[4]。

SVM算法,被称为支持向量机或支持向量网络,属于监督学习的机器学习算法。SVM算法在多維度空间中构建了一组超平面用于分类、预测以及其他工作。SVM分为线性和非线性两种,若是线性的,可以用两个平行的超平面分割两种不同类别的数据来使两者的间隔扩大;若是非线性分类,则每个点积都可以使用非线性核函数进行替代。

朴素贝叶斯是贝叶斯定理中较为简单的概率分类器,是一种文本分类方法:把从有限集合中绘制的模型标签定义于问题实例的数据,表示为特征值的向量。这种训练分类数据方法的算法不是单一的,只要有这一原理的算法都可以使用。

Adaboost算法的全称是Adaptive Boosting,该算法更适合与其他的机器学习算法一并使用来提高计算机的学习能力。

K均值算法,此类算法最初来自信号处理,分区数据观测到集群中,通过集群中心对数据进行建模从而找到可比较的空间范围的数据集群,该算法是机器学习的重要基础。

2.3 传统的机器学习遇到的挑战

传统机器学习的问题在于,虽然算法看起来很复杂但缺乏智能性,仍需要大量专业知识和人为干预来处理大数据。大量应用功能需要计算机领域的专家来识别和操作,以便于降低大数据对于传统机器学习的复杂性以及方便传统机器学习算法生效。除此之外,传统机器学习的学习处理过程也略显拖沓,大大增加了处理信息所需的时间。

机器学习可以通过开发高效快速的算法和数据驱动模型来实时处理大数据,从而产生准确的结果和分析,这是任何人工操作和其他传统计算机操作面对大数据都无法达到的成果,因此在大数据背景下的机器学习是必要的。

3 大数据下的机器学习算法

3.1 大数据处理的基本策略

大数据处理机器学习的基本策略大致分为分治策略和大数据抽样。

分治策略的原理是基于多分支递归的算法,其工作原理是将一个复杂的问题拆分成数个相同或相似的子问题,待子问题足够简单后将解决子问题的方法带入最初的问题中加以解决。分治策略对于大数据处理的一个重要优势在于优化,如果在处理数据的每一步将搜索空间减少进而整个算法的渐进复杂度与修剪步骤相同,取决于对几何序数求和,这就是所谓的检索功能[5]。

大数据抽样在机器学习中更是相当重要的一部分,采样偏差会影响机器学习算法构建的模型的性能,而在机器学习的培训和学习阶段,确保数据样本反映建模的基础分布非常关键。对于大数据的利用管理,采用适合的采样技术所花费的成本比大数据整体更高效,减少抽样偏差是重中之重。

3.2 大数据分类

大数据分类是依靠已知训练数据集来确定新观察值属于子种群中的哪一个的度量方法。是机器学习算法的分类中监督学习的一个典型标准实例,意为是人为控制相应的训练数据集合和训练结果的机器学习。大数据分类将数据划分为各个类别并把划分结果定义为数个可量化的属性,且命名这些属性为特征或是解释变量。这些解释变量既有可能是实际的值,也有可能是分类的类别、分类的等级和具体的整数等。一种算法对于分类产生的具体实现,就是分类器把输入的数据映射后的结果。大数据分析算法有非概率分类和概率分类两种分类子类,但通用的算法是概率算法。这是由于概率算法对于大数据处理的优势在于其算法本质为产生的概率,意味着可以更加高效率地把概率分类器和更大的机器学习任务合并,以最大限度地避免错误传播数据。

3.3 大数据回归分析

回归分析最常使用的形式是线性回归,研究人员通常根据需求的数学标准来判断最适合数据的线性组合。由于可以通过自变量给定的组值来估算出因变量的总体平均值,不同的回归形式来估计替代位置参数或在更广泛的非线性模型集合中估计条件期望的时候使用的过程也略有偏差。回归分析不仅可以在机器学习中用于预测,更可以用来推断自变量与因变量之间的因果,揭示固定数据集中因变量和自变量集合之间的关系。为了方便将回归用于进行预测还用于推断因果关系两者进行有效区分,研究者需要详细描述现有的关系值是否对新情境具有预测能力,或者提出两种变量之间的关系具有因果联系的原因。在这一点上,提出因果联系的原因对于当研究者希望使用观测数据来估计因果关系时就显得尤为重要。在处理数据的过程中,研究者根据其选择的想要估计的模型来使用他们选择的方法来估计该模型的参数。

3.4 大数据聚类

大数据聚类算法可以基于聚类算法的聚类模型对大数据进行分类。目前已经有超过100种发布的聚类算法,因此研究中无法全部提供模型来对其进行详细的分类。除非有数学上的原因证明比起该特定聚类模型更适合使用另一个聚类模型,研究者通常习惯使用通过实验来选择针对特定问题的最合适的聚类算法的方法,而且针对一种模型设计的算法通常会在包含完全不同的模型的数据集上失败。分层聚类算法是一套聚类中比较核心且完整的方法,它们的区别在于计算距离的方式不同。除了通常选择距离函数外,用户还需要确定链接标准来加以使用。通用的选择一般为单链接聚类,完整链接聚类和UPGMA或WPGMA。另外分层聚类可以被区分成是聚集性的或分散性的[6]。

3.5 大数据关联规则

关联规则学习是一种反馈大数据中变量之间的相互关系的机器学习方法,其特点在于使用特定的方法来识别数据库里的规则和数据交互时的规律性,这种交互规律可用于信息的处理中。

关联规则的优点在于这种方法可以同时满足用户指定最小置信度和用户指定最小支持两种需求。每当计算机应用最低支持阈值来查找数据库中的所有频繁项目集后最低置信约束使用这些频繁项目集来形成规则,随后这两个步骤就意味着关联规则的生成。

目前已经研究出了许多用于生成关联规则的算法,比如Apriori算法、FP Growth算法和 Eclat算法。Apriori算法一般使用广度优先策略对于项目集合进行搜索和计数,以此来用备选的生成函数进行向下封闭;FPGrowth算法首先对集中项目出现次数统计后将数据存储在表内,以便于用这些数据创建接下来的树状结构。

但正是因为它们是用于挖掘频繁项集的算法,因此通常只能完成一半的工作,当该关联算法使用数据库中的频繁项目集生成规则了之后,就需要执行另一个算法了。

3.6 大数据集成学习

相比于机器学习中的其他组成学习算法,集成方法由于可以用多种学习算法而拥有着更强的预测处理能力。机器学习中的集成算法一般由具体的替代模型群组构成,而这些替代模型群组中又有着更加灵活的结构,这是这种算法和传统集成最大的不同。

在监督学习算法中,集成算法同样占据着优势,这种优势在于集成的特点使其拥有更多的数据假设集群,对比于其他的监督学习算法更能生成优良的假设结果。这种优势也意味着集成算法的预测数据集合需要的计算量更大,以此可以用这种大量计算的特点来弥补其他学习效果较差的算法,因此那些处理速度快的算法更容易与集成算法互相促进。

由于集成算法的训练数据和用模型预测的能力明显体现出其身为监督学习特性的机器学习算法,因此虽然集成算法反馈单个假设为代表,但构建模型的假设空间内也许并不包含这种假设,这同样体现了集成算法在这方面功能具有极大的灵活性,这使得集成算法在训练数据时比单个模型要更占优势。

4 结论

针对大数据处理的聚类算法、选择特征算法、回归算法和关联算法等方法,它们不仅在对于大数据的提取方面展现出了巨大的潜力,更是有利于最大效率上地利用大数据和表示大数据的分层。大数据也是促进这些机器算法不断地训练和进化的后盾,这种良性促进的关系让人不禁想要探索未来的机器学习算法会取得的成就,那成就无疑是值得期待的。

参考文献:

[1] 肖红.大数据下的机器学习算法探讨[J].通讯世界,2017(6):265-266.

[2] 李成录.大数据背景下机器学习算法的综述[J].信息记录材料,2018,19(5):4-5.

[3] 陈学武,肖港.基于大数据技术的制造企业商业模式创新[J].经贸实践,2018(8):245-246.

[4] 孙凯.大数据背景下机器学习在数据挖掘中的应用浅析[J].科学技术创新,2018(18):82-83.

[5] 朱巍,陳慧慧,田思媛,等.人工智能:从科学梦到新蓝海——人工智能产业发展分析及对策[J].科技进步与对策,2016,33(21):66-70.

[6] 张绍成,孙时光,曲洋,等.大数据环境下机器学习在数据挖掘中的应用研究[J].辽宁大学学报(自然科学版),2017,44(1):15-17.

【通联编辑:代影】

猜你喜欢
机器学习大数据算法
基于MapReduce的改进Eclat算法
Travellng thg World Full—time for Rree
进位加法的两种算法
前缀字母为特征在维吾尔语文本情感分类中的研究
基于支持向量机的金融数据分析研究
一种改进的整周模糊度去相关算法