机器学习及其算法与应用研究

2017-07-11 11:37夏天
电脑知识与技术 2017年15期
关键词:应用与发展

夏天

摘要:随着智能化时代的到来,机器学习已成为一个热门的研究领域。作为人工智能的核心技术,机器学习涉及包括统计学,概率论,算法复杂度等多个学科,以研究如何模仿和学习人类行为,通过机器的自我学习从而获得整体的性能,甚至新知识、技能的自行优化和探索。机器学习的本质是模型的建立和算法的研究,能通过经验和大量的学习样本自动优化模型和算法标准,不断贴合实际发展,因此当前主要应用于智能机器人,数据挖掘,生物识别监测,推荐算法等领域

关键词:机器学习分类;算法相似性;应用与发展

1概述

在经典著作《机器学习》中对于该学科的认知是“利用经验改善系统自身的性能。”这种对经验的运用即人类的学习能力,通过工作的重复和叠加,形成系统性的模型,并在此基础上持续优化模型,使得后续工作执行得更好。这种学习方式形成循环的反馈,促使系统获得经验并改进性能。

这样的学习能力是否通过塑造模型和算法而搬迁至机器,也就是我们现在所说的计算机中?这便是机器学习的真正意义,而人工智能即是当前研究的成果。

机器学习的研究需要以神经网络,统计分类等统计学,生物学为基础,让机器模拟人类学习过程。对此需要输入巨量的数据和学习样本以形成人类所知的“经验”,不断重复拆分、回归、聚合,最终得到元素间的关系并可依此形成类似经历的判断和预测。因此也应用于数据挖掘,大数据处理等基于海量数据的预测。

机器学习的本质在于数据的整合归纳,模型的建立和算法的改进。在整个学习过程中,最基本的条件是持续的外界反馈,以某种方式形成的外界信息源,运用算法将获取的外部信息加工成为“经验”,并储备在内在的数据库里。数据库根据建立的原则和规律提供执行的行动,而行动过程中获得的外界信息又成为了新的反馈来源,对下一次的行为提供新的指导信息。

2机器学习研究方法

当前机器学习主要研究的问题包括四类:分类、回归、聚类和规则抽取。

2.1分类

分类在机器学习中是基础且重要的一步,通过指导性的学习,告知每个数据样本是归属于哪种类型,在这样的训练下,机器掌握不同的分类函数/模型,当有新的数据样本出现时,能判断其类别并映射至相应的类别中。

2.2回归

指的是数学里的一种分析方式,研究一组随机变量和另一组随机变量之间的关系。最简单的一种回归分析即为一元线性关系。机器学习研究的是标识好的数据和已有的模型/函数之间的关系,能将新输入未识别的样本归纳到相关的模型中,因此,回归的结果也是分类的一种依据或先提条件。但回归与分类的不同在于回归里研究的是实数,而分类研究的是离散值。

2.3聚类

聚类的对象是没有被标注的数据,只是杂乱的样本,通过聚类对这些样本进行分类,这种分类是利用样本间的关系。聚类的结果与分类不同的是,分类前已有分好的类别模型,但聚类出来的类别事先没有被识别标注,可将聚类的结果再次研究,创建新的分别和标注。

2.4规则抽取

规则抽取是除了能识别新样本的类别外,还对分析样本间属性的关系进行统计分析。

3机器学习的算法

机器学习本质研究的是算法,如何解决问题取决于算法的选择。基于学习方法的算法分类为:

3.1监督学习

通常运用于神经网络训练中,监督学习利用已进行标注或分类的数据,训练对这些数据的理解和关系,输出这些关系的模型,使得能做新输入的未标示样本进行预测。监督学习强依赖于输入的已分类信息,因为后续的预判都是依据此分类信息学习得到的结果。监督学习通常用于分类和归回问题的研究,且常用的模型为决策树分析模型。

3.2非监督学习

非监督学习利用未标注或分类的数据进行训练,研究样本的结构,输出分类模型。其主要解决的问题的聚类和规则学习。通常使用的算法包括Apriori算法和k-means算法。

3.3半监督学习

半监督学习利用的是已标注或分类的数据和未标示数据的混合数据,既要学习属之间的结构关系,也要输出分类模型进行预测。回归和分类问题是主要研究对象,因其在三种学习中更为高效,在实际运用中更为普遍。

4机器学习实际应用

机器学习当前仍是较为新型的智能方面的科学技术,在计算机,互联网领域应用较为广泛。主要应用的领域和实际操作有:

1)人脸识别:在照片库里识别出所有包含某一人的照片。该识别在手机、电脑等数码产品中被普遍使用,作为管理工作。

2)语音识别:同样是一个生物识别的实践案例,识别用户的话语和含义,明确用户需求,比如苹果自带的Siri系统。

3)垃圾邮件识别:区分邮箱里收到的正常邮件和垃圾邮件。

4)推荐系统:根据用户过往的操作习惯,购买记录等个人行为数据,识别真正吸引用户并愿意为此付费的类型和事物,并从该类别中挑选类似的事物,促进用户查阅,点击,付费等行为。

5)股票交易:根据某只股票的所有价格波动等历史数据,预测对该股票当前的操作行为,例如持仓,减仓,抛出等。

以上是较为主流的机器学习的实际使用领域。除此在数据挖掘,人工智能,规划和问题解决等领域也有不同程度的使用。

5机器学习未来与发展

5.1非监督学习

机器学习目前还未是一门成熟的学科,其研究的成本昂贵,在训练中所需的已标识数据是经人工处理而成,且需由专家进行,因此要获得大量的标识样不仅成本高,且难度大。也因此非监督学习,针对从无标注的数据中学习将成为未来研究重点方向。

5.2模型尺寸上的优化

当前普遍使用的模型,尤其是自然语音处理的模型,大小均超过500M。如何能在小设备,比如移动设备上的使用是一种挑战。移动设备一般对于存量、大小、功耗等都有一定限制,而模型的过大则成为了一大制约因素。若未来能将机器学习技术广泛应用于移动端,需通过两方面的优化来改善该未来:使用压缩技术进行模型压缩,抑或改变算法以改变大小。

5.3智能化发展

将深度学习与知识,逻辑等人类思维模式结合,推进人工智能的发展,获得如人类一般的学习能力。将知识与数据整合,提高模型训练的速度和精度,使得人工智能更加贴近人的思维和决策方式。

5.4博弈机器学习

当前深度学习的主要运用集中于认知类识别,如图像识别,生物识别等,均为静态决策,假若进行更深一步的运用,则是复杂和动态决策。如股票预测,需根据时间变化来不断预测何时买入卖出,以及多种因素和变量会对决策产生影响。因此,未来的发展可延伸至研究复杂动态性多因素之间的关系,根据观察环境甚至周围相似个体做出更为准确的预测。

6结论

机器学习是基于神经网络,研究人工智能的核心技术,主要通过监督学习,来解决分类、回归、聚类和规则抽取四类主要问题,目前主要应用的领域有专家系统,图像,生物识别,通过模型,分类器的学习,对新事物做出判断。但目前机器学习主要解决的问题是认知性问题,在实际生产中,因环境,动态变化等制约,适用范围仍较窄。

本文总结了机器學习当前的技术和算法,总结了未来其方可发展和研究方向为以下几方面:1)优化当前的学习方法,从模型和算法两边人手,发展使用未标注数据进行训练,发展新的模型、硬件系统设计,提高效率和精准度,降低学习成本。2)如何从静态任务学习转至动态、复杂角色任务。

猜你喜欢
应用与发展
进口汽车检测技术的应用及其发展分析
积极推进BIM设计技术在市政工程中的应用
浅谈自动化技术的应用与发展
国际关系学中科学哲学的应用及前景
探讨工程机械中机电一体化技术的应用