基于共词分析的大数据技术前沿与热点研究

2019-09-10 18:01蒋健舒畅
新生代·上半月 2019年7期
关键词:共词分析大数据

蒋健 舒畅

【摘要】:[目的/意义]对国内大数据技术的研究成果进行梳理与计量分析,有助于从不同角度了解注意研究状况、发文情况,对后续的研究具有一定的参考价值。[方法/过程]本文利用共词分析法、VOS viewer聚类分析、社会网络分析等方法,研究关键词之间的联系,探讨近年来大数据技术的前沿与热点问题。[结果/结论]结果表明,近两年国内对于大数据技术的研究主要有数据挖掘和数据分析技术,文章最后针对大数据技术和其应用领域的研究现状和未来研究方向

【关键词】:大数据 共词分析 多维尺度分析 VOS viewer

一引言

随着互联网、物联网等通信技术的快速发展,人类社会已进入大数据时代。在国家政策的导向和信息技术自身发展的需求两个作用下,以“大数据”维为主题的研究热潮迅速引起。近年来,国内外学者从各个层面各个角度基于“大数据”展开了激烈的讨论与研究,也产生了很多有影响力的研究成果。为了更好的把握大数据的前沿动态与热点领域,对“大数据”主题的研究成果进行梳理和分析是很有必要的

本文从可视化角度,通过收集中国知网(CNKI)中以“大数据”为主题的高质量期刊论文,利用文献计量、共词分析方法和多维尺度分析方法等对大数据技术领域的研究主题进行梳理,揭示国内该领域的前沿与热点问题,以期揭示大数据技术的前沿动态和研究热点,为大数据理论与应用的深入研究提供一定的参考和借鉴。

二、数据来源与研究方法

(一)数据来源

为了得到可靠、准确的数据,本为选取CNKI学术期刊中以主题=“大数据技术的应用” ,来源类别=“SCI来源期刊”or“CSSCI”or“核心期刊”的期刊论文为数据来源,得到291篇大数据领域的研究论文。

(二)研究方法

本文采用Endnote、VOS viewer、Excel作为研究工具,通过Endnote和Excel对数据进行基础分析,统计关键词频,构建高频关键词共词网络;SPSS对共词矩阵进行多维尺度分析,统计研究热点;VOS viewer进行社会网络分析,探究研究方向。

三、大数据技术研究文献计量分析

(一)词频分析

通过对文献集中的关键字段进行统计分析,从291篇论文中共提取816个关键词。然后进行数据筛选与清洗,由于本文主题是大数据技术,故从关键词中剔除“大数据”、“大数据技术”、“大数据时代”,得到词频统计不低于5的关键词,词频分布具体如表1所示。通过对关键词词频进行统计分析,发现“数据挖掘”、“数据分析”、“电子政务”、“云计算”等大数据技术应用领域出现次数较多,这在一定程度上反映出大数据技术在这四个领域的应用较为频繁。

(二)高频关键词共词矩阵

为了全面揭示大数据技术的结构、研究热点及研究动态。构建了如表2的30*30的高频词共现矩阵(部分)。在共词矩阵中,两个关键词共同出现次数越多,说明两个关键词联系越紧密,越能体现主题的研究内容。其中,矩阵对角线为关键词的词频,上三角或下三角表示两个关键共同出现的次数。

(三)多维尺度分析

一般来说,多维尺度分析比较适合用相异矩阵,为了避免高频词共现矩阵中词频差异过大导致多元分析受到影响,本文采用Ochiia系数法将共词矩阵转化为相关矩阵,继而用1减去相关系数,得到相异矩阵,在SPSS中进行多维尺度分析,得到关键词的多维尺度关系图,如图1所示。其中:

可以看出,大数据技术的应用包括4个类团。第一类:应用于区域链、商业银行、精准扶贫、隐私保护等信息化建设。第二类:应用于高校和互联网的信息采集,人工智能技术逐渐引起重视。第三类:应用于图书馆、智能电网、互联网金融、电子政务的云计算技术。第四类:应用于教育大数据、高校思想政治教育、数字出版的大数据平台和数据处理技术

(四)社会网络分析

在VOS viewer中,为了获得使聚类结果更加精确细致,选取词频不低于2的关键词进行分析,通过筛选与梳理,剔除“策略”、“发展”等关键词,合并“数据分析”、“大数据分析”等关键词,获得有效关键词81个,生成高频关键词聚类图如图1。根据聚类结果,将高频关键词划分为4类最为合适。第一类:包括产业融合、人工智能、共享经济、区域链、技术架构、数据模型6个关键词。主要涉及人工智能技术在产业融合与共享经济领域的应用。第二类:包括互联网金融、商业银行、贸易流通、征信体系、转型升级、金融业务、银行7个关键词。体现大数据技术在金融领域的应用。第三类:包括公共治理、国家治理、数据异化、数据治理、立法数据化5个关键词。体现大数据在立法、公共治理方面的应用,针对数据异化问题进行数据处理,构建电子政务体系。第四类:包括图书馆、数据采集、服务创新、知识服务、阅读推广、高校图书馆6个关键词。体现大数据技术在图书馆建设中的数据采集、阅读推广以及服务创新方面的应用。

四、结果分析

多维尺度分析和VOS viewer聚类分析的目的都是为了探索数据之间的近似程度,但是聚类分析更加侧重于分组,而多维尺度分析的最终结果则是图形,其形成的类团有一定的主观意愿影响。因此,二者结果略有不同但又大体一致。本文采用共词分析方法,对文献高频关键词进行统计分析,从不同层次分析大数据技术的应用,得出结论如下:

(1)多维尺度分析显示,在不同的领域,大数据技术的技术手段略有不同,包括人工智能技术、云计算技术、信息化建设以及基于大数据平台的数据处理技术。随着信息社会的不断发展,这些大数据技术逐渐成为了主流技术。所以未来关于这些技术的进一步发展,在不同领域的应用,依然是一个值得深入研究的课题。

(2)VOS viewer聚类显示,目前大数据技术主要应用于产业融合、互联网金融、公共治理和图书馆4个方面。随着大数据技术的不断发展,其应用领域越来越宽泛,适用领域越来越多,下一步的研究重点应该放在进一步扩展大数据应用领域,将大数据技术与专业领域完美结合,形成专业化大数据技术。

【参考文献】:

【1】童子颐.国内大数据研究热点分析[J].情报探索,2015(07):38-41+46.

【2】王一博,郭鑫,王继民.基于词共现的大数据研究主题分析[J].图书馆论坛,2014,34(08):96-102.

【3】王宇灿,李一飞,袁勤俭.国际大数据研究热点及前沿演化可视化分析[J].工程研究-跨学科视野中的工程,2014,6(03):282-293.

【4】陈红琳,魏瑞斌,張玮,张宇航.基于共词分析的国内文本情感分析研究[J].现代情报,2019,39(06):91-101.

【5】杨冰. 学习分析的研究热点、主题与发展趋势解析——基于共词分析的可视化研究[A]. 教育部高等学校教育技术专业教学指导委员会.走向智慧时代的教育创新发展研究--第16届教育技术国际论坛暨首届智慧教育国际研讨会论文集[C].教育部高等学校教育技术专业教学指导委员会:江苏省教育信息化工程技术研究中心,2017:4.

作者简介:

1.蒋健,男。(1998-),安徽财经大学管理科学与工程学院,本科生,专业:信息管理与信息系统

2.舒畅,女,(1998-),安徽财经大学管理科学与工程学院,本科生,专业:计算机科学与技术

猜你喜欢
共词分析大数据
基于德温特数据库的关键共性技术分析
国内图书馆嵌入式服务研究主题分析
基于文献计量分析我国生物科学素养研究状况(2001~2016年)
基于知识图谱的智慧教育研究热点与趋势分析
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索
基于共词分析的近年国内O2O研究主题分析
国内移动用户行为研究热点与前沿