机器学习及其算法与应用研究

2017-07-11 11:37夏天

电脑知识与技术 2017年15期

夏天

摘要：随着智能化时代的到来，机器学习已成为一个热门的研究领域。作为人工智能的核心技术，机器学习涉及包括统计学，概率论，算法复杂度等多个学科，以研究如何模仿和学习人类行为，通过机器的自我学习从而获得整体的性能，甚至新知识、技能的自行优化和探索。机器学习的本质是模型的建立和算法的研究，能通过经验和大量的学习样本自动优化模型和算法标准，不断贴合实际发展，因此当前主要应用于智能机器人，数据挖掘，生物识别监测，推荐算法等领域

关键词：机器学习分类；算法相似性；应用与发展

1概述

在经典著作《机器学习》中对于该学科的认知是“利用经验改善系统自身的性能。”这种对经验的运用即人类的学习能力，通过工作的重复和叠加，形成系统性的模型，并在此基础上持续优化模型，使得后续工作执行得更好。这种学习方式形成循环的反馈，促使系统获得经验并改进性能。

这样的学习能力是否通过塑造模型和算法而搬迁至机器，也就是我们现在所说的计算机中？这便是机器学习的真正意义，而人工智能即是当前研究的成果。

机器学习的研究需要以神经网络，统计分类等统计学，生物学为基础，让机器模拟人类学习过程。对此需要输入巨量的数据和学习样本以形成人类所知的“经验”，不断重复拆分、回归、聚合，最终得到元素间的关系并可依此形成类似经历的判断和预测。因此也应用于数据挖掘，大数据处理等基于海量数据的预测。

机器学习的本质在于数据的整合归纳，模型的建立和算法的改进。在整个学习过程中，最基本的条件是持续的外界反馈，以某种方式形成的外界信息源，运用算法将获取的外部信息加工成为“经验”，并储备在内在的数据库里。数据库根据建立的原则和规律提供执行的行动，而行动过程中获得的外界信息又成为了新的反馈来源，对下一次的行为提供新的指导信息。

2机器学习研究方法

当前机器学习主要研究的问题包括四类：分类、回归、聚类和规则抽取。

2.1分类

分类在机器学习中是基础且重要的一步，通过指导性的学习，告知每个数据样本是归属于哪种类型，在这样的训练下，机器掌握不同的分类函数/模型，当有新的数据样本出现时，能判断其类别并映射至相应的类别中。

2.2回归

指的是数学里的一种分析方式，研究一组随机变量和另一组随机变量之间的关系。最简单的一种回归分析即为一元线性关系。机器学习研究的是标识好的数据和已有的模型/函数之间的关系，能将新输入未识别的样本归纳到相关的模型中，因此，回归的结果也是分类的一种依据或先提条件。但回归与分类的不同在于回归里研究的是实数，而分类研究的是离散值。

2.3聚类

聚类的对象是没有被标注的数据，只是杂乱的样本，通过聚类对这些样本进行分类，这种分类是利用样本间的关系。聚类的结果与分类不同的是，分类前已有分好的类别模型，但聚类出来的类别事先没有被识别标注，可将聚类的结果再次研究，创建新的分别和标注。

2.4规则抽取

规则抽取是除了能识别新样本的类别外，还对分析样本间属性的关系进行统计分析。

3机器学习的算法

机器学习本质研究的是算法，如何解决问题取决于算法的选择。基于学习方法的算法分类为：

3.1监督学习

通常运用于神经网络训练中，监督学习利用已进行标注或分类的数据，训练对这些数据的理解和关系，输出这些关系的模型，使得能做新输入的未标示样本进行预测。监督学习强依赖于输入的已分类信息，因为后续的预判都是依据此分类信息学习得到的结果。监督学习通常用于分类和归回问题的研究，且常用的模型为决策树分析模型。

3.2非监督学习

非监督学习利用未标注或分类的数据进行训练，研究样本的结构，输出分类模型。其主要解决的问题的聚类和规则学习。通常使用的算法包括Apriori算法和k-means算法。

3.3半监督学习

半监督学习利用的是已标注或分类的数据和未标示数据的混合数据，既要学习属之间的结构关系，也要输出分类模型进行预测。回归和分类问题是主要研究对象，因其在三种学习中更为高效，在实际运用中更为普遍。

4机器学习实际应用

机器学习当前仍是较为新型的智能方面的科学技术，在计算机，互联网领域应用较为广泛。主要应用的领域和实际操作有：

1）人脸识别：在照片库里识别出所有包含某一人的照片。该识别在手机、电脑等数码产品中被普遍使用，作为管理工作。

2）语音识别：同样是一个生物识别的实践案例，识别用户的话语和含义，明确用户需求，比如苹果自带的Siri系统。

3）垃圾邮件识别：区分邮箱里收到的正常邮件和垃圾邮件。

4）推荐系统：根据用户过往的操作习惯，购买记录等个人行为数据，识别真正吸引用户并愿意为此付费的类型和事物，并从该类别中挑选类似的事物，促进用户查阅，点击，付费等行为。

5）股票交易：根据某只股票的所有价格波动等历史数据，预测对该股票当前的操作行为，例如持仓，减仓，抛出等。

以上是较为主流的机器学习的实际使用领域。除此在数据挖掘，人工智能，规划和问题解决等领域也有不同程度的使用。

5机器学习未来与发展

5.1非监督学习

机器学习目前还未是一门成熟的学科，其研究的成本昂贵，在训练中所需的已标识数据是经人工处理而成，且需由专家进行，因此要获得大量的标识样不仅成本高，且难度大。也因此非监督学习，针对从无标注的数据中学习将成为未来研究重点方向。

5.2模型尺寸上的优化

当前普遍使用的模型，尤其是自然语音处理的模型，大小均超过500M。如何能在小设备，比如移动设备上的使用是一种挑战。移动设备一般对于存量、大小、功耗等都有一定限制，而模型的过大则成为了一大制约因素。若未来能将机器学习技术广泛应用于移动端，需通过两方面的优化来改善该未来：使用压缩技术进行模型压缩，抑或改变算法以改变大小。

5.3智能化发展

将深度学习与知识，逻辑等人类思维模式结合，推进人工智能的发展，获得如人类一般的学习能力。将知识与数据整合，提高模型训练的速度和精度，使得人工智能更加贴近人的思维和决策方式。

5.4博弈机器学习

当前深度学习的主要运用集中于认知类识别，如图像识别，生物识别等，均为静态决策，假若进行更深一步的运用，则是复杂和动态决策。如股票预测，需根据时间变化来不断预测何时买入卖出，以及多种因素和变量会对决策产生影响。因此，未来的发展可延伸至研究复杂动态性多因素之间的关系，根据观察环境甚至周围相似个体做出更为准确的预测。

6结论

机器学习是基于神经网络，研究人工智能的核心技术，主要通过监督学习，来解决分类、回归、聚类和规则抽取四类主要问题，目前主要应用的领域有专家系统，图像，生物识别，通过模型，分类器的学习，对新事物做出判断。但目前机器学习主要解决的问题是认知性问题，在实际生产中，因环境，动态变化等制约，适用范围仍较窄。

本文总结了机器學习当前的技术和算法，总结了未来其方可发展和研究方向为以下几方面：1）优化当前的学习方法，从模型和算法两边人手，发展使用未标注数据进行训练，发展新的模型、硬件系统设计，提高效率和精准度，降低学习成本。2）如何从静态任务学习转至动态、复杂角色任务。