文本分类

  • 基于多粒度标签扰动的文本分类研究
    芳关键词: 文本分类; 深度学习; 标签扰动; 元学习; 多粒度DOI:10.3969 / j.issn.1008-0821.2024.01.003〔中图分类号〕TP391 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 01-0025-12文本分类是信息组织和信息分析中的重要內容,其涉及的范围十分广泛, 不仅包括学术文献的分类任务, 如文献结构分类、引文情感分类、引文意图分类等, 也包含社交媒体信息分类、突发事件的识别与分类、政策文本分类

    现代情报 2024年1期2024-01-27

  • 基于SSA-SVM的营养健康信息文本分类研究
    息,针对传统文本分类算法的不足,利用麻雀搜索算法(SSA)良好的尋优能力对支持向量机(SVM)的最优参数组合进行搜索,提出一种基于SSA-SVM的文本分类方法。对SSA-SVM模型在不同的数据集中的分类效果进行了试验研究,结果表明,SSA全局寻优性能稳定,可有效降低SVM参数选取对系统泛化能力和分类精度的影响,SSA-SVM模型在营养健康文本分类中准确率可达到83.8%,对食物营养健康信息挖掘研究具有一定的参考价值。关键词: 营养健康; 文本分类; 支持向

    计算机时代 2023年6期2023-06-15

  • 融合多粒度动态语义表征的文本分类模型
    态语义表征的文本分类模型,首先在词嵌入层使用动态词向量表征语义信息并引入对抗扰动,使得词向量具有更好的表征能力,然后利用多头注意力机制进行词向量權重分配,获得带有关键语义信息的文本表示,最后使用提出的多尺度残差收缩深层金字塔形的卷积神经网络与混合注意力胶囊双向LSTM网络模型分别提取不同粒度的文本表示,融合后对得到的最终文本表示进行分类.实验结果表明,相比于现有模型,所提出的模型使用不同词向量表示时,在化工领域文本数据集上F1-Score最高可达84.62

    南京信息工程大学学报 2023年2期2023-06-14

  • 基于ERNIE的新闻标题文本分类
    曹晖关键词:文本分类;EWLTC; ERNIE;注意力机制中图法分类号:TP391 文献标识码:A随着时代的发展,文本数据从传统的实体化向数字化、虚拟化方向发展。新闻文本是我们生活中接触最为广泛的一种文本数据,但由于新闻来源渠道复杂多样,需要对其进行准确的分类。一方面,准确的新闻类别标签可以帮助用户快速地检索感兴趣的新闻;另一方面,根据用户的使用需求进行标签化、类别化推荐,需要将新闻文本存储至不同类别库中。随着信息的爆炸式增长,人工标注数据完成分类任务极为

    计算机应用文摘 2023年7期2023-05-30

  • 融合BiLSTM的双图神经网络文本分类模型
    建异构图处理文本分类任务时,存在难以泛化到新样本和词序信息缺失的问题。针对上述问题,提出了一种融合双图特征和上下文语义信息的文本分类模型。首先,为每个文本独立构建共现图和句法依存图,从而实现对新样本的归纳式学习,从双图角度捕获文本特征,解决忽略单词间依存关系的问题;其次,利用双向长短期记忆网络( bi-directional long short-term memory,BiLSTM)编码文本,解决忽略词序特征和难以捕捉上下文语义信息的问题;最后,融合双图

    上海理工大学学报 2023年2期2023-05-30

  • 基于mBERT的东南亚小语种推特文本情感分析
    源语种的包括文本分类在内的多项任务,都起到了很大的提升效果。在基于海量语料训练得到的跨语言预训练语言模型mBERT的基础上进行微调,相较于传统的机器学习方法,在情感分析任务的效率和准确度都可得到不错的提升。关键词: 小语种;预训练语言模型;文本分类;情感分析;BERT中图分类号:TP391      文献标识码:A文章编号:1009-3044(2023)01-0074-031 引言对小语种文本的情感分析的方法,经历了从构建其情感词典并采用基于规则的无监督方

    电脑知识与技术 2023年1期2023-05-30

  • BERT编码与注意力机制结合的长文本分类研究
    特征,提高长文本分类效果,PCA压缩特征向量能够降低分类模型的复杂度,提高时间效率。关键词: 文本分类; 预训练语言模型; 注意力机制; 特征向量; PCA中图分类号:TP391.1          文献标识码:A     文章编号:1006-8228(2023)05-136-04Research on long text classification based on the combination of BERTfeature representat

    计算机时代 2023年5期2023-05-14

  • 基于Attention-BiLSTM模型的对话式文本抑郁识别研究
    义飞关键词:文本分类;抑郁识别;情感分析;注意力机制;BiLSTM0 引言抑郁症是现代社会日益严重的公共健康问题之一,其特征有显著且长期的情绪抑郁、认知障碍、思维迟缓等。随着激烈的社会竞争等因素影响[1],人们所面临的生活负担和心理压力日益严重,导致抑郁症的患病率持续增长,抑郁症患者自杀风险也是正常人的25倍以上[2-3]。由此可见,目前抑郁识别仍然是一项非常具有挑战性的任务。传统的抑郁识别方法主要包括基于词典和机器学习的情感分析方法。Ran Li等人[4

    电脑知识与技术 2023年7期2023-04-27

  • 基于ERNIE的新闻标题文本分类
    曹晖关键词:文本分类;EWLTC; ERNIE;注意力机制中图法分类号:TP391 文献标识码:A随着时代的发展,文本数据从传统的实体化向数字化、虚拟化方向发展。新闻文本是我们生活中接触最为广泛的一种文本数据,但由于新闻来源渠道复杂多样,需要对其进行准确的分类。一方面,准确的新闻类别标签可以帮助用户快速地检索感兴趣的新闻;另一方面,根据用户的使用需求进行标签化、类别化推荐,需要将新闻文本存储至不同类别库中。随着信息的爆炸式增长,人工标注数据完成分类任务极为

    计算机应用文摘·触控 2023年7期2023-04-20

  • 基于机器学习的网上问政文本分类方法
    )的方法进行文本分类。实验表明,在基于机器学习的文本分类中,经过预处理和词向量模型表示后的文本,使用SVM分类方法对网上问政文本进行所属机构类别取得了90%以上的准确率。关键词:自然语言处理;机器学习;网上问政;文本分类;SVM中图分类号:TP311        文献标识码:A文章编号:1009-3044(2023)06-0022-03开放科学(资源服务)标识码(OSID)0引言智慧政府的建设为群众提供了更多样的政务服务途径,开通网上问政方便群众可以通过

    电脑知识与技术 2023年6期2023-04-14

  • 基于朴素贝叶斯分类的电信诈骗信息的识别
    骗信息,使用文本分类技术来识别电信诈骗信息。采用中文分词技术(jieba)对数据样本的中文信息进行分词,用TF-IDF算法提取电信诈骗信息的特征,向量空间模型(VSM)构建文本内容的特征,选取朴素贝叶斯分类算法的伯努利模型和多项式模型,分别训练数据并对比测试得出各自对电信诈骗信息的识别效果评估。关键词: 文本分类; 电信诈骗信息; 机器学习; 朴素贝叶斯中图分类号:TP391.1          文献标识码:A    文章编号:1006-8228(202

    计算机时代 2023年4期2023-04-13

  • 基于Bert模型的文本多分类应用研究
    :BERT;文本分类;迁移学习1 概述随着互联网的发展越来越发达,教育领域也因教育信息化而发生了巨大变革,通过搜索引擎和在线答题平台咨询学习问题已逐渐成为学生及老师学习的一种方式[1]。在咨询过程中,问答系统会对用户提出问题的类别进行准确区分,如题目的学科或题目考查的知识点。知识点在教育教学过程中起着重要的作用,可对题库根据知识点进行分类,然后根据学生的学习情况,有针对地将习题推荐给学生,老师也能根据学生的做题情况有针对地进行拔高训练,为学生设计阶段性学习

    电脑知识与技术 2023年4期2023-03-24

  • 基于LSTM结合注意力机制的长文本分类优化研究
    摘要:文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。伴随着信息的爆炸式增长,人工标注数据已经变得耗时、质量低下,且受到标注人主观意识的影响。因此,利用机器自动化对文本进行标注具有一定的现实意义,将重复且枯燥的文本标注任务交由计算机进行处理能够有效克服以上问题,同时所标注的数据具有一致性、高质量等特点。其应用场景众多,包括:情感分析、主题分类、意图识别等;其分类标签可以是:情感分析(积极、消极、中性)、主题分类(历史、体育

    互联网周刊 2023年3期2023-03-11

  • 基于Word2Vec和句法分析对心血管防控知识分类应用
    础。关键词:文本分类;Word2Vec;句法分析;健康防控知识;用户应用中图分类号:TP301文献标志码:AResearchoncardiovascularhealthknowledgeclassificationbasedonword2vecandsyntacticanalysisZHAOYanbinZHANGPengzhu(AntalCollegeEconomicsManagement,ShanghaiJiaoTongUniversity,Shangh

    上海管理科学 2022年3期2022-07-25

  • 基于深度学习的冒犯性语言检测方法综述
    冒犯性语言;文本分类;数据预处理中图分类号:TP391.1        文献标识码:A文章编号:2096-4706(2022)05-0005-06A Review of Offensive Language Detection Methods Based on Deep LearningGUO Bolu, XIONG Xuhui(College of Computer and Information Engineering, Hubei Normal U

    现代信息科技 2022年5期2022-07-10

  • 基于ERNIE-SA-DPCNN的文本分类研究
    域发展迅猛,文本分类任务作为其中的基本任务出现了重大突破,但并未辐射到公安工作实务之中。目前文本分类领域以采用基于统计和概率的模型为主,但是相比于使用大量语料训练的预训练模型,其分类效果并不理想。文章采取预训练ERNIE作为特征提取模型,并以SA-Net结合ERNIE模型中的注意力机制,最后以DPCNN作为深度学习网络形成ERNIE-SA-DPCNN算法。实验证明,ERNIE-SA-DPCNN在涉网新型犯罪案件案情文本分类任务上的表现优于其他模型。关键词:

    现代信息科技 2022年6期2022-07-06

  • 文本分类中TF-IDF算法的改进研究
    宗卓关键词:文本分类;特征选择;CHI平方统计;TFIDF;分类准确性随着在线信息的快速发展,如何有效地处理大量文本成为一个热门的研究课题,文本分类是其中的关键任务之一。文本分类是将新文档分配给预先存在的类别,并且已广泛用于许多领域,如信息检索、电子邮件分类、垃圾邮件过滤、主题定位。近年来,大多数研究集中在寻找新的分类算法上,对信息检索的文献表示模型的改进研究很少。传统模型有三种:向量空问模型、概率模型、推理网络模型。向量空问模型把对文本内容的处理简化为向

    计算技术与自动化 2022年2期2022-07-04

  • 基于BERT-BiLSTM的水利新闻情感分析研究
    STM模型;文本分类中图分类号:TP391      文献标识码:A文章编号:1009-3044(2022)15-0004-031 引言我国是一个水灾多发的国家,水灾的发生往往会给人们带来很多不利的影响。近年来,随着互联网的发展,人们能够越来越方便地在网络上发表和水利有关的新闻和言论,但往往有些新闻或者言论是不正确的,甚至会给社会带来巨大的负面影响。因此,利用情感分类技术检测负面新闻的传播来维护社会稳定是非常有实用价值的。情感分析主要从分析网络舆情发展而来

    电脑知识与技术 2022年15期2022-07-02

  • 基于小样本数据增强的科技文档不平衡分类研究
    练语言模型在文本分类任务上能够取得很好的效果,但由于科技文档较强的领域性导致通用预训练模型难以取得良好效果。更重要的是,不同领域积累的文档数量存在显著差异,其不平衡分类问题仍未完善解决。针对上述问题,本文通过引入和改进多种数据增强策略,提升了小样本类别的数据多样性与分类鲁棒性,进而通过多组实验讨论了不同预训练模型下数据增强策略的最佳组合方式。结果显示,本文所提出的技术框架能够有效提升科技文档不平衡分类任务的精度,从而为实现科技文档自动化分类及智能应用奠定了

    预测 2022年3期2022-06-27

  • 面向中文菜谱工艺的文本分类研究
    器学习搭建了文本分类模型,实现了工艺标签的自动标注。该模型使用TF-IDF、TextRank两种方法进行特征降维,与常见的三种机器学习分类器朴素贝叶斯(NB)、逻辑回归(LR)、支持向量机(SVM)进行组合,组成了6种模型。获取网络上的中文菜谱整理成实验数据集,通过实验验证了所提模型的有效性,为菜谱工艺标签的自动生成提供了可行的解决途径。关键词:中文菜谱; 机器学习;文本分类; 特征降维;分类器中图分类号:TP391      文献标识码:A文章编号:10

    电脑知识与技术 2022年21期2022-05-30

  • 基于双向长短记忆网络和门控注意力的文本分类网络
    结构对于提升文本分类的准确率具有积极的作用.将这3 种结构和双向的循环网络进行结合 , 组成了所提出的文本分类模型. 通过在7 个常用的文本分类数据集(AG、DBP、Yelp.P、Yelp.F、Yah.A、 Ama.F、Ama.P)上进行的实验 , 得到了具有竞争性的结果并且在其中5 个数据集(AG、DBP、Yelp.P、 Ama.F、Ama.P)上获得了较好的实验效果. 通过实验表明 , 所提出的文本分类模型能显著降低分类错误率.关键词:文本分类;  注

    华东师范大学学报(自然科学版) 2022年2期2022-03-31

  • 就业类微信公众号发展研究
    ;信息处理;文本分类;精确化中图分类号:F713.5        文献标志码:A      文章编号:1673-291X(2022)06-0121-03一、研究背景教育部统计数据显示,2020年应届高校毕业生有874万,同比增长40万。习近平总书记高度重视就业工作,就全面强化稳就业举措、更好发挥市场在促进就业中的作用,作出一系列重要指示。针对高校毕业生就业问题,最重要的是提高劳动者与岗位匹配的效率,解决劳动者与用人单位之间信息不对称问题。在疫情影响下,国

    经济研究导刊 2022年6期2022-03-19

  • 面向高校的智能问答系统设计
    数字化校园;文本分类;文本相似度中图分类号:TP391.1 文献标识码:A文章编号:1009-3044(2022)36-0033-031 概述智能问答系统是一种能够理解用户提出的用自然语言表述的问题,并能够自动、准确地给出用户答案的软件系统[1]。现今互联网上的资源信息飞速增长,如何精确、快速地从海量信息中挖掘用户想要的信息成为亟待解决的问题。智能问答系统是进行该项工作的重要手段,很大程度上可以替代或辅助传统人工咨询的方式。根据应用领域的不同,智能问答系统

    电脑知识与技术 2022年36期2022-02-22

  • 基于自然语言处理和机器学习的文本分类及其应用研究
    于机械学习的文本分类也有着越来越深刻的研究。在信息时代对于文本的分类处理是极其重要的,通过机器可以帮助人民在浩如烟海的网络资源世界中迅速的达到自身的目的。但对于自然语言的处理和促进机械学习语言去进行文本分类也不是一项简单的任务,在这方面国内外研究者都达成了一定的成就,这对于帮助人们快速查询到所需的内容大有脾益。既能够方便用户快捷的搜索,又能够实现数据的有效充分利用这才是对于机械未来文本分类的期望。关键词:自然语言;机械学习;文本分类;前言对于自然语言的处理

    科学与生活 2021年25期2021-12-02

  • 词袋模型和TF-IDF在文本分类中的比较研究
    择方法下不同文本分类算法的分类效果,研究结果表明TF-IDF下的文本分类效果显著优于词袋模型。关键词:词袋模型;TF-IDF;文本分类中图分类号:TP391.1        文献标识码:A文章编号:1009-3044(2021)28-0138-03开放科学(资源服务)标识码(OSID):Comparative Study of Word-bag Models and TF-IDF in Text ClassificationYAN Ya-ya(Chong

    电脑知识与技术 2021年28期2021-11-28

  • 朴素贝叶斯与Softmax回归在文本分类上的对比研究
    李伦波摘要:文本分类问题是自然语言处理中的重要任务。本文将机器学习中的朴素贝叶斯模型以及Softmax回归应用于自动文本分类中,在清华新闻分类语料数据集上实现了基于多项分布与类条件分布假设实现了朴素贝叶斯模型,并使用BOOL、TF、IDF、TF-IDF四种特征权重训练了Softmax回归模型。最后,将两种模型在训练集与测试集上的性能进行对比。关键词:朴素贝叶斯;Softmax回归;自然语言处理;文本分类中图分类号:G642      文献标识码:A文章编号

    电脑知识与技术 2021年28期2021-11-28

  • 基于机器学习的文本分类技术研究进展
    基础知识上,文本分类技术处理面临种种挑战,在算法、模型以及对产品的评测进行一系列的研究工作,该文总结了当前在机器学习基础上的关键问题,例如:Web页的分类方法,分类的多层性,算法的扩展特性,标注的瓶颈,文本分类技术的分散性以及线性。该文综合考虑了以上因素,对其进行科学合理的分析,并对基于机器学习的文本分类技术的研发与改进方法提出几点建议与措施,希望可以起到借鉴作用。关键词:机器学习;文本分类;结束研究;进展中图分类号:TP3        文献标识码:A文

    电脑知识与技术 2021年30期2021-11-28

  • 基于BERT模型的中医文本分类研究
    卢苗苗摘要:文本分类是自然语言领域一个重要的研究方向和技术核心,一直受到研究者的热切关注。在医学领域,中医源远流长,在人类历史发展中发挥着不可磨灭的作用。中医语言包含了大量中医领域术语,且多为表述严谨和富含辩证思维的古文,上下文词语关联性较强,且大多是结构化、半结构化或非结构化数据的形式,这些特点给中医病案的智能分析分类造成了很大地困难。该文基于注意力机制的深度学习模型Bert模型实现中医深层全局语义的特征表示,并进行中医临床文本的分类研究。最后通过对中医

    电脑知识与技术 2021年27期2021-11-08

  • 基于分词结构特征的故障文本分类方法
    关键词的售后文本分类方法。首先,采用经典分词方法对文本进行分词,然后基于临近词的条件关系,提出一种基于字词信息熵增益的临近词关联方法,针对专业售后文本提出更优的关键词提取方法;在该分词方法的基础上,利用TF-IDF算法筛选关键词,利用关键词和词性的统计分布特征,建立文本的评价特征;最后以少量标记文本为训练样本,采用决策树进行模型训练,实现全量文本的分类算法。实验结果表明,基于熵信息的词关联方法有效提升分词准确性,提取的文本特征和训练的模型在文本的分类筛选上

    电子乐园·下旬刊 2021年2期2021-11-01

  • 视频网站保护青少年弹幕分级算法的研究
    :弹幕过滤;文本分类;弹幕分级1绪论“弹幕”是当下最为流行的在线视频实时互动交流方式,评论内容虽然转瞬即逝,但再次观看视频时还可在对应弹幕发出的节点看到该弹幕的内容,弹幕文化是一种将屏幕传播与文字传播相结合的融合文化。用户通过弹幕信息交流不仅可以与其他用户进行实时互动,使得观看视频的过程变得有趣,在交流中获得归属感[2],还可以通过弹幕了解额外的剧情知识,增强视频内容的可读性和趣味性,但由于弹幕的无限制性,用户可以随意表达自己的观点,却不用承担任何后果,促

    中学生学习报 2021年16期2021-10-19

  • 基于多类型池化卷积神经网络的文本分类
    器学习方法的文本分类耗时耗力、不具备通用性、效果不好的问题及提高短文本分类的效果,文章提出了一种基于多类型池化的卷积神经网络分类方法。文章首先使用CNN(卷积神经网络)提取短文本的特征信息,然后利用多种类型的池化操作对提取的特征信息进行筛选,得到最终的分类依据。通过实验表明,文章提出的方法在短文本分类上要优于其他CNN分类模型和一些传统的机器学习方法。关键词:自然语言处理;文本分类;卷积神经网络;特征提取;池化操作0 引言文本分类问题是自然语言处理领域中一

    无线互联科技 2021年16期2021-10-18

  • 基于N-gram特征的加权朴素贝叶斯文本分类算法
    被广泛运用在文本分类领域,但由于算法所涉及属性的独立性和同等重要性,算法的文本分类效果并不理想。针对以上问题,该文采用一种基于N-gram特征的加权朴素贝叶斯文本分类算法的模型对5种文本进行分类实验,然后将实验得到的准确率、召回率、F1值等评价标准对模型进行评估,并与传统的朴素贝叶斯模型分类算法得到的结果进行比较,结果表明分类效果得到较大的提升。关键词:朴素贝叶斯;N-Gram;加权;文本分类中图分类号:TP393      文献标识码:A文章编号:100

    电脑知识与技术 2021年19期2021-09-27

  • 大数据支持的慕课论坛教师干预预测及应用
    教师干预; 文本分类; 语义挖掘[中图分类号] G434            [文献标志码] A[作者简介] 吴林静(1987—),女,湖北松滋人。副教授,博士,主要从事数据挖掘、人工智能与教育应用研究。E-mail:wlj_sz@126.com。一、引   言慕课课程由于其开放、优质、免费等特征,受到了教育者和学习者的广泛认可,并给教育领域带来了巨大的变化。根据第三方在线教育机构Class Central统计,截至2018年底,全球慕课课程数量为1.1

    电化教育研究 2021年7期2021-09-27

  • 基于BiLSTM-CNN模型的新闻文本分类
    N网络在新闻文本分类中容易忽略上下文的语义信息,分类准确率低的问题,同时结合CNN和BiLSTM的优点,提出一种基于BiLSTM-CNN模型的新闻文本方法。该模型先使用Word2Vec中的Skip-gram模型对数据中的词进行映射处理,转换为固定维度的向量;再利用BiLSTM捕捉双向的语义信息;最后将BiLSTM模型提取的特征与词嵌入的特征进行拼接作为CNN的输入,使用大小为2,3,4的卷积核进行卷积。在THUCNews和SougouCS兩个公开的数据集上

    电脑知识与技术 2021年21期2021-09-23

  • 基于CNN深度学习的自媒体文本分类方法的研究
    自媒体文章的文本分类研究,在舆情监控、广告投放、情感分析和商业推荐上都有很重要的意义。用经典的文本分类方案来做自媒体文章分类,存在很多挑战。因此有必要对自媒体文章分类进行针对性的探究,为自媒体文章提供更好的文本分类器以满足进一步的应用。该文比较了经典的贝叶斯算法和基于深度学习的CNN算法在自媒体文章分类上的性能差异,并引入了word2vec /FastText/Glove等词向量工具来优化CNN算法,通过实验验证了这种优化带来的效果优势。关键词:文本分类;

    电脑知识与技术 2021年21期2021-09-23

  • 基于图卷积网络的服装评价信息分类问题的研究
    。关键词: 文本分类;文档主题生成模型;服装评价;图卷积网络;注意力机制文章编号: 2095-2163(2021)01-0036-06 中图分类号:TP181 文献标志码:A【Abstract】With the rapid development of the Internet and the gradual popularization of electronic devices, more and more people choose to shop

    智能计算机与应用 2021年1期2021-07-11

  • 基于朴素贝叶斯的机器学习实验教学设计
    设计    文本分类一、实验研究背景与目的本实验设计主要基于朴素贝叶斯理论,目前是为学生提供基于贝叶斯理论的实验项目,让学生更好地理解该理论解决实际问题。 随着互联网的飞速发展, 海量数据注入到通讯设备中。如此大量的信息就让信息检索和数据挖掘的重要性更加突出。文本分类作为数据挖掘的一部分也逐渐被人们重视起来。其中文本分类的主要内容是在预先给定的类标签的集下, 根据文章内容, 确定它的类别。我们接下来将要通过三个方面来介绍:文本表示, 分类器构造和分类器评估

    中国新通信 2021年6期2021-07-01

  • 基于反馈式文本分类技术自动识别项目标签
    并基于反馈式文本分类机器学习原理再次识别了所有项目的标签类别,项目标签分类准确率由82%提升到91%。结果表明,反馈式文本分类技术,显著提高了项目分类的准确性。关键词:项目标签;文本分类、词向量;分类器;线性支持向量机;反馈学习中图分类号:TP181    文献标识码:A 文章编号:2096-4706(2021)17-0100-04Abstract: In order to classify the industry categories of the n

    现代信息科技 2021年17期2021-04-05

  • 基于百度人工智能的拍照切题系统设计
    度OCR; 文本分类中图分类号: TP181        文献标识码:A文章编号:1009-3044(2021)03-0199-02Abstract:In recent years, the education industry has greatly increased the degree of intelligence and informatization with the vigorous development of the Internet

    电脑知识与技术 2021年3期2021-03-15

  • 中文文本分类概述
    据日益增长,文本分类技术显得越来越重要,是文本挖掘领域的热点问题,具有广阔的应用场景。文本分类方法的研究开始于20世纪50年代,一直受到人们的广泛关注。该文从文本分类的流程出发,简要介绍文本分类的一般流程以及每一步骤中涉及的主要技术。主要包括预处理部分的分词、去停词和文本表示方法、特征降维和分类算法,分析了各种方法的优缺点并总结。关键词:文本分类;预处理;特征降维;分类算法中图分类号:TP3        文献标识码:A文章编号:1009-3044(202

    电脑知识与技术 2021年1期2021-03-15

  • 文本方面级情感分类方法综述
    ;方面级别;文本分类;深度学习;图神经网络;图卷积网络中图分类号:TP311.13文献标识码: Adoi:10.7535/hbkd.2020yx06006A survey of text aspect-based sentiment classificationLI Shengwang, YANG Yi, XU Yunfeng, ZHANG Yan(School of Information Science and Engineering, Hebei U

    河北科技大学学报 2020年6期2020-12-23

  • 基于卷积神经网络的文本分类应用
    :本文先介绍文本分类的特点和应用,并指出传统处理方法在文本处理方面的瓶颈及不足之处;然后引入深度学习的概念,以卷积神经网络为例,介绍卷积神经网络在文本分类中的应用,通过从特征词入手,經过卷积-池化-分类等步骤对文本的分类进行预测。结果表明,卷积神经网络自动抽取特征的优点相对传统的文本分类方法具有更高效的表现。关键词:朴素贝叶斯;深度学习;卷积神经网络;文本分类中图分类号:TP183:文献标识码:A0 引言文本分类是自然语言处理的一个重要方面,利用计算机手段

    锦绣·上旬刊 2020年8期2020-12-14

  • TF-IDF和Word2vec在新闻文本分类中的比较研究
    发困难。自动文本分类技术作为自然语言处理的重要分支而受到学者们的广泛关注。文章首先对新闻文本进行数据预处理,随后重点研究了TF-IDF和Word2vec两种不同的文本表示方法,采用KNN算法完成新闻文本分类对比,实验结果表明Word2vec表示的特征向量在新闻文本分类中取得了较好的分类效果。关键词:TF-lDF;Word2vec;文本分类中图分类号:TP3 文献标识码:A文章编号:1009-3044(2020)29-0220-031 引言自然语言处理中无疑

    电脑知识与技术 2020年29期2020-12-01

  • 探讨基于神经网络的商品评论情感分类
    然语言处理;文本分类;LSTM;Attention机制Sentiment Classification Of Commodity Reviews Based On Neural NetworkSun Qingyang, Liu LeiAnhui University of Technology, Anhui Maanshang 243000Abstract With the rapid development of computer technology,

    科学与信息化 2020年29期2020-10-26

  • 湘西南地区“南岳歌”分类及其教育功能
    湘西南   文本分类中图分类号:J605                    文献标识码:A                   文章编号:1008-3359(2020)15-0083-03南岳歌是受南岳“寿岳”文化辐射地区人们在去往南岳衡山朝拜祈福过程中在宗教仪式和旅途行程中所颂唱的歌曲的总称。湖南省隆回、洞口、武冈三县地处湘西南地区,受南岳寿岳文化影响,也属梅山文化的影响范围,每年农历六、七月间就会有一批一批的香众结伴去往南岳衡山朝圣祈祷,在现在一般

    艺术评鉴 2020年15期2020-09-15

  • LSTM长短期记忆神经网络研究综述
    :LSTM;文本分类;情感分析1引言LSTM神经网络属于RNN循环神经网络的一种变体。循环神经网络加强了信息前后之间的联系,即上一次的输出结果会作为下一次的输入内容,从而让神经网络具有了记忆的能力,这也是循环神经网络的关键。但是在应用循环神经网络的过程中,出现了长期依赖的问题,远距离信息无法学习与记忆,因此LSTM出现从而解决长序列训练过程中的梯度消失和梯度爆炸等问题,即远距离传道的信息丢失问题通过LSTM神经网络得以解决。2 LSTM概念及原理LSTM神

    看世界·学术上半月 2020年4期2020-09-10

  • 基于机器学习的文本情感多分类的学习与研究
    摘要:文本分类与情感分类是自然语言处理中基础的领域,为帮助初学者对文本情感多分类的项目学习,在机器学习的基础上,分析了线性逻辑回归算法、朴素贝叶斯模型在文本情感分类项目中的应用,并针对数据处理、模型构建、模型训练、模型测试过程中初学者难以解决和易出错的部分进行分析与实现。结合kaggle上的比赛数据实例,实现了完整的文本情感多分类项目并做出详细分析,项目评测结果较为可观,证实可以帮助初学者更易上手文本情感多分类和机器学习。同时提出了基于传统二分类问题的多分

    电脑知识与技术 2020年20期2020-08-26

  • 一种基于嵌入式注意力机制的文本分类方法
    的科研价值,文本分类技术得到广泛的关注。文本分类在信息检索、自动问答等应用领域占据重要地位,是自然语言处理研究的关键技术之一。本文针对神经网络分类方法训练时间长性能仍可提高,提出一种嵌入式注意力机制模块(Eam),用来增强已有的文本分类神经网络模型。该模块将重点关注数据中什么是最有意义及哪里含有的信息量更为丰富,从而高效提取文本中有价值的信息区域加速模型收敛。本文以增强TextCNN、ImdbCNN为例,在公开数据集IMDB上证明Eam的有效性,同等参数配

    软件 2020年6期2020-08-13

  • 基于深度学习的中文幽默计算
    积神经网络;文本分类中图分类号:TP391.1;TP181   文献标识码:A  文章编号:1007-9416(2020)06-0000-001研究背景幽默可以分为不同的类型,如反转、谐音、谐义等,并且幽默往往还存在着强弱之分。虽然主观性较强,仍可以以一定的规则进行计算。幽默計算可以进一步揭示人类使用幽默的方式和机制,形成涵盖幽默机制的认知模型,实现更为智能的人机交互。同时,建立基于幽默的计算模型,有助于赋予计算机更深层次的人类认知。2相关工作本文对中文幽

    数字技术与应用 2020年6期2020-07-22

  • 基于文本元素的PDF表格区域识别方法研究
    ;文本抽取;文本分类;表格识别DOI: 10. 11907/rjdk.191410开放科学(资源服务)标识码(OSID):中图分类号:TP301文献标识码:A文章编号:1672-7800(2020)001-0113-040 引言识别药学文献PDF中的表格,目的在于通过一定的方法识别药学文献中的表格区域,从而为表格信息的结构化抽取奠定基础,降低表格信息抽取过程中可能由其它非表格文本元素混入带来的噪音[1]。表格区域识别是表格信息抽取的重要任务[2-4]。现有

    软件导刊 2020年1期2020-07-14

  • “智慧政务”文本挖掘研究与应用
    积神经网络多文本分类器构造、F-score评价等方法,确定了留言内容以及标签分类模型。关键词:改进CNN ;F-Score聚类;文本分类;政务处理1挖掘目标群众留言分类。在处理网络问政平台的群众留言时,当前的处理方法是工作人员首先按照一定的划分体系对留言进行分类;然后将群众留言分派至相應的职能部门处理。请你们针对目前大部分电子政务系统还是依靠人工根据经验处理中存在的工作量大、效率低、且差错率高等问题,根据给出的数据,建立关于留言内容的一级标签分类模型,并考

    科学与财富 2020年14期2020-07-04

  • 基于BERT模型的中文舆情文本分类应用
    用于中文舆情文本分类领域中,在比较中证实BERT模型的优越性。关键词:文本分类;BERT;网络舆情在很长的一段时间内,自然语言处理(NLP)为人工智能領域中研究的重点、热点,其面对的是繁杂多变的自然语言,希望基于精致的数学模型深度解读语句内涵,进而实现人和机器之间的自然交互。2018年年末,谷歌团队对外发布了以双向Transformer预训练语言模型(BERT),通过查阅相关文献资料后发现[1],BERT用于中文NLP的研究处于早期探索阶段,舆情数据类别划

    科学与财富 2020年14期2020-07-04

  • 基于深度神经网络的在线协作学习交互文本分类方法
    .42%;各文本分类模型在问题类、无关信息类交互文本上的准确率较低;CNN模型和LSTM模型在问题类交互文本上的分类效果更佳。该方法在面向在线协作学习的知识掌握度评估、学习活动维持、消极学习情绪干预、学习预警与提示等方面具有较高的应用价值。关键词:在线协作学习;深度学习;深度神经网络;交互文本;文本分类中图分类号:G434   文献标识码:A    文章编号:1009-5195(2020)03-0104-09  doi10.3969/j.issn.1009

    现代远程教育研究 2020年3期2020-06-01

  • 基于FastText的新闻文本多分类研究
    占很大比重。文本分类作为最常见的文本挖掘技术,可在大量杂乱的文本数据中发现有价值的信息,具有重要意义。文本分类面临的首要问题是如何在确保分类准确率的同时缩短分类时间。提出使用分类模型FastText学习单词特征以解决该问题,同时在数据集上使用停用词处理方法降低噪声数据对分类模型的影响。实验结果表明,使用FastText文本分类模型在数据集上准确率达到96.11%,比传统模型提高近4%,且模型处理每条文本的平均时间为1.5ms,缩短了约1/3。关键词:文本分

    软件导刊 2020年3期2020-05-28

  • 基于Attention-CLSTM模型的商品评论分类
    再跃摘 要:文本分类是自然语言处理中的一项重要基础任务,指对文本集按照一定的分类体系或标准进行自动分类标记。目前网络文化监督力度不够、不当言论不受限制,导致垃圾评论影响用户体验。因此提出一种基于注意力机制的CLSTM混合神经网络模型,该模型可以快速有效地区分正常评论与垃圾评论。将传统机器学习SVM模型和深度学习LSTM模型进行对比实验,结果发现,混合模型可在时间复杂度上选择最短时间,同时引入相当少的噪声,最大化地提取上下文信息,大幅提高评论短文本分类效率。

    软件导刊 2020年2期2020-05-25

  • 突发事件前Twitter用户言语行为研究:基于机器学习的方法
    ;突发事件;文本分类;言语行为;特征提取中图分类号:TP393文献标识码:A文章编号:1009-3044(2020)04-0188-04收稿日期:2019-10-15作者简介:曹若凡(1995—),男,上海人,研究生在读,管理学硕士,主要研究方向为自然语言处理,情感分歧。Research on Speech Acts of users in Twitter before the emergency:Based on Machine Learning Met

    电脑知识与技术 2020年4期2020-04-14

  • 融合主题信息的卷积神经网络文本分类方法研究
    能源政策自动文本分类识别效果进行实验,从标题、内容、核心主题句等角度全面对比分析,利用Doc2Vec抽取不同比例核心主题句,将这些主题信息融入卷积神经网络模型中以对实验进行优化。[结果/结论]随着核心主题句抽取率的提高F1均值呈正态分布,当抽取率为70%时达到平衡,神经网络模型评估F1均值为83.45%,较实验中的其它方法均有所提高,通过Doc2Vec提取主题信息,并将其融入卷积神经网络的方法有效提升了卷积神经网络模型自动文本分类的效果。关键词:能源政策;

    现代情报 2020年4期2020-04-01

  • 结合Bert字向量和卷积神经网络的新闻文本分类方法
    摘要:目前的文本分类大多使用词向量,且词向量大多由Word2vec,Glove等方法训练得到,其存在的问题是部分文本中词语的数量较多而训练速度较慢,且准确率受到切词的影响。由于中文字词和英文差异较大,提出结合Bert字向量的文本分类方法。Bert是一个由Google提出的以Transformer为基础的自然语言处理通用模型,它提供了汉语字符级别的词向量即字向量。利用Bert字向量并使用卷积神经网络对新闻进行文本分类。在准确率较高的情况下,其效率高于结合词向

    电脑知识与技术 2020年1期2020-03-30

  • 基于朴素贝叶斯的文本情感分类及实现
    影评数据进行文本分类。首先利用词袋模型对文本数据进行分类。在此基础上加入Word2Vec建立新的词向量特征,通过精准率和召回率对比前后2种模型的分类效果;最后通过逻辑回归和朴素贝叶斯分类模型的分类效果对照得出研究结论。结果表明:对于英文影评文本分类,在同等条件下,使用Word2Vec构建词向量模型的精准率和召回率比使用bag of Word词袋模型分别高出0.02个百分点和0.026个百分点;在使用Word2Vec的基础上,朴素贝叶斯分类器的精准率和召回率

    智能计算机与应用 2019年5期2019-12-05