基于自然语言处理和机器学习的文本分类及其应用研究

2021-12-02 17:39冷禹廷

科学与生活 2021年25期

冷禹廷

摘要：随着科学技术的迅猛发展，人们对于自然语言的处理越来越娴熟，对于机械学习的文本分类也有着越来越深刻的研究。在信息时代对于文本的分类处理是极其重要的，通过机器可以帮助人民在浩如烟海的网络资源世界中迅速的达到自身的目的。但对于自然语言的处理和促进机械学习语言去进行文本分类也不是一项简单的任务，在这方面国内外研究者都达成了一定的成就，这对于帮助人们快速查询到所需的内容大有脾益。既能够方便用户快捷的搜索，又能够实现数据的有效充分利用这才是对于机械未来文本分类的期望。

关键词：自然语言;机械学习;文本分类;

前言

对于自然语言的处理和机械学习都是在科技发展的背景下，计算机技术迅猛发展的一种体现，代表着计算机的一种操作方法，是面对人工智能计算应运而生的智能语言形式。二者具体的核心都是利用编程软件的设计从而令机器能够模仿人类的行为，从而快速完成对人类工作内容的替代，进而解放人力提高生产力。这是计算机科技走向智能化，自动化，高新化最为重要的体现，这需要技术人员能够重视并积极投身其中认真研究，同时这需要花费科研人员大量的心血才能够完成，在注重效率的同时保障所需内容的精准度，这是摆在科研工作者面前最大的难题。

1.文本分类工作所需要完成的使命

想要让计算机中掌握文本分类的奥秘，就需要将自然语言的处理和机械学习这两项技术融入其中，为达到文本分类工作所需要的精度，就需要科研人员在充分了解文本分类的前提下，将文本分类所需的精髓移植到软件编程中去。这就要求科研工作者能够充分掌握文本分类的技巧，文本分类的最终目的是便于查阅者搜寻，在保证信息安全的前提下保障工作人员能够找到相关资料。文本分类是一项综合性很强的工作，在不同的领域对于文本分类的要求各不相同，从数学的角度来看，文本分类更像是一个一一对应的映像函数，输入一个指令，输出一个与之相对应的文章。也可以是一个一对多的映射，毕竟一个文章可能会有多种类型的特征，就拿题目基于自然语言处理和机器学习的文本分类及其应用研究而言，搜索自然语言或者机械学习都有可能得到相同的结果。根据各行各业不同的特征来看，想要实现数据的整合和分析不是一件容易的事情，特别是还要能够满足使用者的需求，把数据当做映射来处理就可以解决一部分问题。

2.常见的文本分类方法和優劣

目前，常见的文本分类方法可以归结于以下几点，其一，标记型文本。把一篇文章对应一个标记，或者对应多个标记，根据对应标记的个数分为单标记和多标记两种。其二，还可以根据不同的存储格式按照他们的后缀名来进行分类，对于常见的有TXT类型和DOC类型，这两种都可以按照后缀名的不同而划分到不同的领域中去，从而完成文本分类的目标。最后就是按照内容种类的不同进行分类，根据书籍的使用范畴来决定书籍的分类标准，这种方法应用起来就会比较细致，学校里的图书馆便是采用这种方法使数以千计的书籍得到妥善的安排，能够方便读者进行借阅，但同时这种方法应用起来比较繁琐，需要投入大量的人力物力去维护。但这些方法都属于传统文本分类方法的范畴当中，在人工操作计算机的情况下才能够完成，与之相对应的是巨大的工作量，其中因为繁琐的任务，操作人员在不够细致的情况下还会有可能造成因操作失误而引发的数据混乱。这对于文本的分类是极其不利的，故相关研究技术人员将考虑采用新型计算机技术来解决以上难题。探索出新的可行方法，并推动文本分类工作的有序进行便是自然语言和机械学习要面对的最大困难。

3.基于自然语言和机械学习的文本分类的分析及应用

3.1基于自然语言和机械学习的文本分类的基本。

自然语言便是我们日常生活中所借用用到的汉语、英语等语言，他们是人类沟通和交流的渠道，通过对机械进行编写程序从而令机械能够进行流畅正确的操作，用编写好程序的机械来帮助人们完成工作，编程能够使机械达成人类的目标就是机械的学习。以数据的形式将资料存储在互联网的网络数据库中，在需要的时候只借助一个简单的指令就可以将其调出，这就是基于自然语言和机械学习的文本分类方式。将文本的内容和文本的存储融入到我们日常的自然语言中去，这样就可以令我们一般人无需学习多么高深的计算机语言也可以畅行无阻的与机械进行互动，在具体的操作过程中还涉及对数据信息的文字转换技术，这些都有利于日后人们进行文本资料的查阅活动。

3.2基于自然语言和机械学习的文本分类的方法。

利用语音识别功能能够实现自然语言到机械语言的无差别转化，这样可以令工作人员的效率大幅提高，不仅可以使用以往手动输入的方式，更是可以通过直接的交流实现信息的互动。这转换方式就是一个映射的过程，每一句话都对应着一些机械语言，这个环节毫无疑问是极具开创性的，能够提高文本分类工作的质量和效率，但同时也要注意到机械是否能够真正的理解我们所说的话语。机械学习的首要研究对象应该是人类的学习思维习惯，通过对人类思维方式的数据化，进而不断地分析解决机械所应当处理的问题，建立人类信息库，将数据收集起来以便于机械进行学习演练。在这个过程中需要机械不断地模仿人类的思维模式，直到其能够真正的理解人类文本分类的需求，在处理数据的过程中，能够筛选出无用的信息并留下最为真实有效的数据，机械才算完成学习任务。自然语言的处理和机械学习在某方面有许多相通的地方，倘若科研工作人员在研究开发其相关内容时能够将其放在一起去考虑相信会有一定优良的效果。这两项对计算机专业操作知识都有着较为严苛的需求，复杂的的技术流程需要再一次的优化化简，在保证研发人员有充足的能力去承担责任的同时还要求科研人员能够紧跟时代潮流，研发出最具时代特色，最能够体现文本分类特征的方法去解决问题。

结语

文本分类能够帮助工作人员解决所需资料不易查找的难题，在新时代中对于文本分类的要求更上一层楼，这就对文本分类的方法有了更高的需求，基于自然语言和机械学习的文本分类方法无疑能够完美的填补这个空缺。在未来相信伴随着计算机技术的再一次飞跃，文本分析的方法一定能够在已有的基础上在上再次进步。

参考文献

[1]韦文娟，韩家新，夏海洋.基于Python自然语言处理的文本分类研究[J].福建电脑，2016，32（7）：4 - 5 .

[2]关白，才让叁智，才华.自然语言处理在信息检索中的应用研究[J].信息与电脑（理论版），2017（11）：35 - 37.

[3]徐凤亚，罗振声. 文本自动分类中特征权重算法的改进研究[J].计算机工程与应用，2005，41（1）：181-184.