基于大数据的中文文本数据分析研究

2019-09-10 07:22汪洋

科学导报·学术 2019年6期

摘要：目前大数据技术已经被广泛应用到各行各业的文本数据分析领域。Python作为大数据处理和分析的首选编程语言，尤其在中文文本的识别、分析、处理方面具备绝对优势。文章以深圳国海创新资本数据匹配项目为实际案例，介绍大数据技术在金融领域中的中文文本数据分析应用。整个数据分析匹配过程包括数据预处理、列表数据元素匹配、输出匹配结果三个步骤。研究成果为大数据在金融行业的广泛应用提供了具体的技术方法和研究思路。

关键词：大数据；中文文本；数据分析

1 引言

近年来，随着全球数字化信息数据量呈爆发式增长，大数据已经渗透到各行各业，相应诞生的大数据技术也迅猛发展，也被人们用来解决各种实际问题。Python这门编程语言异军突起，目前已经成为大数据处理和分析的首选编程语言。原因有以下几个：第一、Python是一种开源的解释型脚本语言、简单易学。第二，和C++、Java一样，Python也是一种面向对象编程语言，具备封装、继承、多态三大特性。第三，Python的跨平台性良好、可扩展性强、代码重用性高。第四、Python为我们提供了丰富的第三方库、应用广泛。Python不仅仅可以用来做系统编程、图形处理、GUI编程，而且目前一些非常火爆的概念比如网络爬虫、人工智能、大数据、云计算等都将Python视为首选语言。另外，Python在中文文本的识别、分析、处理方面相比较于其它编程语言具备绝对优势。所以，目前政府机构使用的网络舆情监控系统、金融领域的量化投资分析都使用到Python。

本文以深圳国海创新资本数据匹配项目为实际案例，演示如何利用大数据技术解决目前金融领域中相关中文文本数据分析问题。

2 问题描述

2.1 项目需求

深圳国海创新资本有限公司给我们提供了大量的excel文件，每个文件里有数千条数据。每条数据由4列信息（代码、名称、发行对象、股东信息）组成。每条数据中发行对象中有若干成员（>=1）、股东信息中有若干成员（>=1）。发行对象中若干成员（>=1）只要出现在股东信息中，该公司认为该条数据发行对象与股东信息之间存在关联性。否则，则不存在关联性。该公司要求我们准确标记出每条数据发行对象和股东信息之间是否存在关联性。存在，则关联性标注为1。不存在，则关联性标注为0。

所提供的excel表格数据内容如图1所示。其中第3条数据发行对象中的成员北京盈谷信晔投资有限公司出现在了该条数据对应的股东名称当中，则认为该条数据发行对象和股东名称之间存在关联性，需要将关联性标记结果为1。其中第5条数据发行对象中每一个成员都没有出现在第对应的股东名称当中，则该条数据的关联性匹配结果需要标记为0。

2.2 问题分析

显然，这是一个中文字符串数据处理问题。其中涉及到中文字符串的预处理、匹配、输出结果等操作。我们无法通过Excel自带的公式来计算出每条数据的关联性匹配结果。如果采用人工的方法进行手动标注，不仅仅费时费力，而且准确性得不到保证。所以需要我们借助大数据技术通过编写算法来解决。我们如果选择C++、Java等编程语言，它们处理中文字符串困难，相关API接口函数都得自己写，代码量大、处理效果不佳。而Python在处理中文字符串方面拥有绝对优势，是解决该问题的首选。

3 数据处理和分析

整个数据处理和分析过程包含三个步骤，分别是数据预处理、列表数据元素匹配、输出匹配结果。我们选择使用Python中常见的数据结构——列表来存储数据。整个数据处理和分析流程图如图2所示。

3.1 数据预处理

首先，将Excel表格数据中的发行对象信息和股东名称信息这两列复制出来，存放到txt文本文件内。去除文本数据中的顿号，并将顿号替换为字母a和b。这样做是为了方便我们后面编写程序对每条数据进行分割切片。然后编写程序将每条数据中的发行对象成员和股东名称成员依次添加到对应的列表中。具体程序实现如图3所示。

3.2 列表数据元素匹配

该步骤为解决该项目的核心算法。简单来说，就是将发行对象列表中的每个元素和股东名称列表中的每个元素逐一匹配。一旦有一个元素匹配成功，则该条数据关联性匹配结果置为1，否则为0。具体程序实现如图4所示。

3.3 输出匹配结果

全部数据关联性匹配结束后，我们将关联性匹配结果列表里的数据输出到Exce表格关联性列中，如图5所示，就完成了整个项目所有内容。

图5 输出匹配结果

4结论

我们选择Python作为开发语言，利用大数据处理和分析技术解决了深圳国海创新资本有限公司中文文本数据匹配难题，最终得到的关联性匹配结果准确率达到100%。将大数据技术应用到金融领域，不仅仅可以为从业者或公司解决数据分析或处理方面的难题，而且可以大大的提高工作效率，节省时间成本。本项目中編写的程序稍作修改，还可以更深入做中英文字符串查找、匹配、归类、提取等操作，可以用来解决金融领域所遇到了类似问题。

参考文献：

[1] 谌志群，张国煊.文本挖掘与中文文本挖掘模型研究[J].情報科學，2007，25（7）：1046-1051.

[2] 袁海，陈康，陶彩霞，等.基于中文文本的可视化技术研究[J].电信科学，2014，30（4）：114-121.

[3] 谷俊，王昊.基于领域中文文本的术语抽取方法研究[J].数据分析与知识发现，2011，27（4）：29-34.

[4] 黄冬，何睿.“大数据”认知的语义网与情感倾向分析[J].中国文化产业评论，2015（2）：335-347

[5] 季培培，鄢小燕，岑咏华.面向领域中文文本信息处理的术语识别与抽取研究综述[J].图书情报工作，2010，54（16）：124-129.

[6] 康书生，曹荣.互联网大数据技术在融资领域的应用研究[J].金融理论与实践，2014，1：1-08.

[7] 蔡庆丰，郭春松，陈诣之.大数据思维在金融学研究中的运用[J].经济学动态，2015，3：104-114.

[8] Liu B，Zhou X，Wang Y，et al.Data processing and analysis in real‐world traditional Chinese medicine clinical data：challenges and approaches[J].Statistics in medicine，2012，31（7）：653-660.

[9] Syeda K N，Shirazi S N，Naqvi S A A，et al.Big Data and Natural Language Processing for Analysing Railway Safety：Analysis of Railway Incident Reports[M]//Innovative Applications of Big Data in the Railway Industry.IGI Global，2018：240-267.

作者简介：

汪洋（1991.09——）男，汉族，四川城市职业学院汽车与信息工程学院四川省成都市助教硕士主要研究领域大数据、人工智能等。

基金项目：

本论文需挂四川城市职业学院校级课题，课题名称《基于大数据的中文文本情感分析研究——以电商平台热销手机用户评论为例》，课题编号CS19KYYB10）。