区块链技术学科主题战略图研究

2019-06-12 07:23苑朋彬佟贺丰赵蕴华
中国科技资源导刊 2019年2期
关键词:特征词象限聚类

苑朋彬 佟贺丰 杨 帅 赵蕴华

(中国科学技术信息研究所,北京 100038)

0 引言

区块链技术是一种去中心化、去信任化的分布式账本技术[1],是继大型机、个人电脑、互联网之后计算模式的颠覆性创新[2],有望在全球引发新一轮的产业革命和技术创新,进而实现信息互联网到价值互联网的全新升级[3]。纵观全球发展态势,联合国、国际货币基金组织以及美、英、日为代表的发达国家都对区块链技术的发展给与高度关注,并积极探索区块链技术应用的可能性。2016年年底,我国政府首次将区块链技术纳入《“十三五”国家信息化规划》,以蚂蚁金服、万向控股等为代表的骨干企业也积极开展区块链技术研究。

目前,区块链技术已经应用到物联网、供应链管理、金融交易、数字征信、智能制造等领域,众多学者对其进行了大量的研究。如焦英楠等[4]立足于物联网安全性,重点探究了区块链技术在增强其网络安全应用方面的可行性和有效性。朱建明等[5]提出了基于区块链B2B+B2C供应链各交易主体、交易结构简图及动态多中心协同认证模型。Yermack等[6]认为区块链技术提供了一种交易、跟踪金融资产所有权的新方式。王俊生等[7]对基于区块链修正的KMV模型在互联网金融征信中的应用进行了探讨。Christidis等[8]认为智能合约可以把区块链与物联网技术有机结合。上述研究从侧面反映了区块链技术不仅成为了全球关注的焦点,而且已经发展成为学术研究中的前沿领域。

本文从学术研究角度,采用技术主题挖掘方法,对区块链技术学科研究主题进行战略图分析,以期从另一视角揭示我国区块链技术研究发展的侧重点,进而为国内开展区块链技术研究工作提供参考。

1 研究方法

本文采取科技战略图方法[9]进行分析。科技战略图是在共词分析的基础上发展的内容分析方法,通过对学术期刊文章包含的关键词或主题词进行统计、挖掘、分析,将若干关键词或主题词组合成研究主题簇,进一步探讨主题簇之间的关系,最终以可视化的方法对主题研究热点进行展示,形成科技战略图。其技术路线如图1所示,总体分为选词、构建特征向量矩阵、主题聚类、类团分析、战略图绘制五大步骤。

1.1 选词策略

词源选择是战略图分析的基础,同时也是主题聚类的关键,词源质量直接决定文献聚类的效果和技术主题的揭示。目前,获取特征词的主要通过文献标题、摘要、内容、关键词、引文、机器标引、主题词等方式。众多学者已经针对词源选择方案进行了研究和探讨,分别从关键词增补(如结合标题、摘要[10]、引文等对关键词进行增补)、关键词阈值选取(如结合齐普夫第二定律[11]、g指数确定高频词阈值[12])、关键词规范化(如对主题词、关键词处理规范方面进行控制[13])等角度提升主题聚类的质量。

增补关键词虽然能够得到更好的聚类效果,但是并未加强对整个知识结构的揭示效果[14]。词频阈值选取不仅要结合领域,更要考虑词的数量,依经验选取数量介于50 ~100 的词[15]。由于关键词存在标引不规范等问题,实际需要对同义词、宽泛词等进行规范化处理。

1.2 矩阵构建

根据阈值选取一定数量的特征词,根据特征词在文献中出现的布尔逻辑值(0 代表未出现,1代表出现)。构建特征向量矩阵Dn m×,其中n为文档数量,m为特征词数量。根据上述特征矩阵,进一步计算得出距离矩阵,为主题聚类做前期准备。

图1 科技战略图技术路线图

特征向量矩阵的距离测度有2 个大类(距离系数和相似性系数),计算方式有多种,如欧式距离、Jacard距离、马氏距离、兰氏距离、cosine相似系数和pearson相关系数等。特征向量共现矩阵的距离测度,常采用ochiai指数[16]、相互包容指数(Equivalence)等指标进行相似度计算,进而转化成距离矩阵。应该注意的是,在共现矩阵的距离测度中,相互包容指数计算是cosine计算的一种特殊情况。cosine系数Sim(x,y)计算如公式(1),相互包容指数Eij计算如公式(2),其中、分别代表Dn m×中的一行/列,代表向量的值。Cij代表特征词共现频率,Ci、Cj分别代表特征词i、特征词j出现的频次。当特征矩阵取值范围为布尔逻辑值0、1 时,cosine相似度指数可以转化成包容指数,即公式(1)可以转化为公式(2)。

1.3 系统聚类

对上述生成的距离矩阵进行聚类,将特征词划分成不同的主题簇,使得每个主题簇中的特征词间最大程度地相近,而不同主题簇中的特征词最大程度地不同。目前,聚类方法大致可划分为5 个大类,即系统聚类、分割聚类、基于约束的聚类、机器学习中的聚类、高维数据的聚类[17],每种聚类各有优点。如系统聚类算法优点之一是可以在不同的尺度上(层次)展示数据集的聚类情况,K-means算法简单快速,对大数据集有较高的效率等。在以SPSS作为分析平台的基础上,有学者对系统聚类分析的参数(组间连接、组内连接、Ward法、最大距离、最小距离)进行组合对比研究后,提出特征向量矩阵要比特征向量共现矩阵的聚类效果更好,应该作为聚类分析的首选矩阵[18]。

1.4 类团分析

根据聚类数量,将特征词划分成不同的主题簇,采用数学统计方法对主题簇之间、主题簇内部的特征词进行分析,称之为类团分析。类团分析存在3 个分析指标[19],粘合力、密度(Density)、向心度(Centrality)。粘合力计算如公式(3),测度的是主题簇中特征词Ai相对于主题簇内的其他特征词Aj的中心度关系。密度计算如公式(4),测度的是主题簇Bi的网络联系程度。向心度计算如公式(5),测度的是主题簇Ci与其他主题簇Cj特征词间中心度关系的强弱。

1.5 战略图绘制

根据上述计算的主题簇内部密度和主题簇间的向心度,将各技术主题簇以可视化的方法表现在如图2所示的二维空间内,其中坐标原点可以定义为两个坐标轴的中位数或平均数[20],通过分析不同象限内的技术主题分布,可以清楚地描述当前主题的研究发展态势。第一象限网络密度大,网络向心度高,在整个网络中处于中心位置,能够较好地反映技术领域的研究热点;第二象限的虽然网络密度小,但在整个网络中位置比较核心,是技术研究的活跃地带;第三象限网络密度大,在整个网络中处于边缘地带,技术研究相对孤立;第四象限网络密度小,处于整个网络的边缘地带,技术研究尚不成熟。

2 实证分析

本文以CNKI数据库中的期刊数据作为源数据,以“区块链”作为检索关键词进行主题检索,检索截止日期为2018年1月,经查重共得到1343 条有效数据。因部分数据关键词字段存在缺失,本文结合标题进行特征词抽取,采用分词程序从标题抽取关键词,与论文关键词合并,经去重、规范化等一系列数据清洗后,共获得领域关键词4486 个,最终经专家判断,其中词频阈值≥10 的有效高频关键词共75 个。

图2 科技战略坐标图

2.1 高频关键词分析

高频关键词的词频分布如表1所示。总体来看,高频关键词的分布主要涵盖金融、虚拟货币、征信、清算、供应链、底层技术等方面。其中“区块链”作为技术领域主题词,出现频率最高,共有1238 次,其他关键词出现的次数均低于250 次。关键词出现频次处于100 ~250 次的共有3 个,分别为“去中心化”“金融科技”和“物联网”。关键词出现频次处于50 ~100 次的共有5 个,分别为“金融机构”“底层技术”“比特币”“数字货币”“虚拟货币”。余下的66 个关键词词频均处于10 ~50 次。区块链技术关键词词频分布差异化比较明显,从一个侧面反映了区块链技术研究的热点比较集中。

2.2 特征向量矩阵分析

根据上述75 个高频关键特征词,构建文本特征向量Di(i=1,2,3,…,1343)和文本特征向量矩阵D134375×(表2)。D01代表了编号为0 的文章中特征词1(区块链)出现的布尔逻辑值(0 值代表未出现,1 值代表出现)。从表2中可以看出各技术关键词构成的文本特征向量矩阵相对比较稀疏,关键词分布比较分散。

基于上述文本特征向量矩阵,我们通过距离计算公式可以度量样本间(记录间)或变量间(关键词间)的相似程度。余弦相似度(cosine)计算利用向量方向差异性进行距离判别。以cosine相似度作为计算方式,计算特征词变量间相似系数矩阵(表3),并最终转化成距离矩阵(表4)。相似系数转化为距离系数的转化过程为1-Sim(x,y)。表3所示的相似系数矩阵中最大值为1,最小值为0,值越大,代表技术关键词之间的相似度越高。表4所示的距离矩阵与相似系数矩阵相反,值越大,代表技术关键词之间的距离越大。如“货币发行”与“物联网”“金融科技”的距离值为1,说明关键词所代表的研究方向差异化较大。

表1 高频关键词分布表

表2 文本特征词矩阵

2.3 系统聚类结果分析

根据上述距离矩阵,利用系统聚类合并法进行聚类,聚类方法采用组间平均值连接法(Average-linkage),其结果列表如图3所示。根据主题聚类谱系图,人工将75 个关键词划分成17 个主题簇,

第一主题簇包含17 个特征词,特征词主要描述区块链的底层技术。如密码学、数据结构、数据加密、数据存储、分布式数据库、哈希算法、时间戳、链式结构等;第二主题簇包含8 个特征词,特征词主要描述金融支付、征信等业务方面;第三主题簇包含7 个特征词,特征词描述数字货币、金融体系、创新监管等方面;第四主题簇包含4 个特征词,特征词描述虚拟货币、ICO众筹等方面;第五主题簇包含2 个特征词,特征词描述智能合约和共识机制等方面;第六主题簇包含7 个特征词,特征词描述清算、结算、票据等业务方面;第七主题簇包含4 个特征词,特征词描述大数据、互联网+、云计算、人工智能等方面;第八主题簇包含4 个特征词,特征词描述供应链交易等方面;第九主题簇包含4个特征词,特征词描述信息技术、智能制造等方面;第十主题簇包含5 个特征词,特征词描述技术基础设施、安全等方面;第十五主题簇包含5个特征词,特征词描述法定货币发行、政策等方面;第十六主题簇包含2 个特征词,特征词描述资产托管、数字经济等方面;第十七主题簇包含2 个特征词,特征词描述股权交易、基础技术等方面。第十一、十二、十三、十四主题簇仅包含一个特征词,不再详细列举。

2.4 科技战略图分析

根据上述聚类划分结果,对主题簇进行类团分析。分析角度主要从网络密度和网络中心度两方面,然后分别以向心度和密度为横纵坐标,将其呈现在象限图中。其类团分析计算结果和战略坐标图分别为表5、图4所示。

对战略坐标图进行整体分析,可见区块链技术研究主题簇分布相对比较分散,且多主题簇研究处于不成熟阶段。第一、二象限内分别包含3 个主题簇,第三象限包含2 个主题簇,第四象限包含9 个主题簇。技术研究主题的不均匀分布从一定角度上反映了技术发展的未来可能性。区块链技术作为一门新兴技术,在各社会领域内的发展具有很大的潜力。

表3 cosine相似系数矩阵

表4 基于cosine相似系数的距离矩阵

图3 主题聚类谱系图

第一象限的底层技术(见主题簇1)是区块链技术发展的基础,其所包含的密码学、数据加密、哈希算法、时间戳、链式结构等技术为区块链发展鉴定了数据层基础,是学术研究的集中点。而虚拟货币(如比特币)、ICO众筹(见主题簇2)是当前区块链技术商业化应用最为成功的代表,其学术关注度也较高。在金融支付、征信(见主题簇4),区块链技术能够节省大量的成本,国际上已经有多家金融机构针对应用成立实验室,如美国存管信托和结算公司DTCC、Visa、环球同业银行金融电讯协会SWIFT等金融巨头相继宣布其区块链战略,研发区块链技术在金融方面的应用。

第二象限作为上述热点研究主题的补充,在金融体系创新、监管(见主题簇3)、基础设施、安全(见主题簇10)等方面,已经有更多学者的思考。2017年9月发布的《防范代币发行融资风险公告》将ICO列为严格禁止交易对象,对区块链技术金融创新的虚拟货币进行监管,保护投资者的合法权益。清算、结算、票据(见主题簇11)作为金融支付的有力补充,同样存在很大的发展空间,如2016年5月,由微众银行、平安银行等共同发起的金融区块链合作联盟成立,探索、研发和实现适用于金融机构的金融联盟区块链及应用场景。

第三象限的研究点相对孤立,重点探讨如何在云计算、大数据、互联网+(见主题簇7)等新一代信息技术背景下,如何发展区块链技术、构建可编程的社会系统(见主题簇5)。其中智能合约是区块链2.0 时代另一个重要特性,智能合约为底层数据赋予了可编程的运行机制,有助于促进区块链技术在人工智能系统中的各类应用。但由于技术发展的不成熟,即使是基于太坊架构,曾被称作“最安全、最可靠、最方便”的智能合约技术,却也在2017年显现出技术发展的漏洞。目前,智能合约技术发展仍存在缺陷,但国内学术关注强度较弱,研究相对孤立,从一个侧面反映了当前学术研究的不足。

表5 主题簇类团分析

图4 区块链技术科技战略坐标图

第四象限包含的主题簇最多,技术发展尚不成熟。研究内容主要集中在以下几大方面的社会具体应用,如股权交易(见主题簇7)、供应链(见主题簇8)、智能制造(见主题簇9)、资产经济(见主题簇16)等。由于目前区块链技术正处于2.0 时代(智能合约)向3.0 时代(可编程社会)的过渡时期,其应用领域也从最初的数字货币扩展到更广泛的金融领域,并且逐渐向其他众多领域延伸。技术的发展仍需要一定的时间过程,未来关于区块链的研究将会更多地集中在区块链的应用研究等方面,显然当前国内学术研究力度有待加强。

3 结论

本文利用战略图分析方法,对区块链技术论文研究主题进行战略定位,从整体上揭示了当前学术研究的热点和存在的不足。分析结果显示如下。

当前区块链技术学术关注点集中体现在对底层技术、金融商业化应用、虚拟货币3 个方面,对区块链技术创新进行监管、对基础设施信息安全进行保障的呼声较高,而对以大数据、云计算、互联网+为信息化大背景下的社会具体应用关注度不够。未来区块链技术在智能合约、智能制造、供应链管理等具体领域的应用是学术研究的重点方向。本文采用战略图分析方法在一定程度上揭示了区块链技术研究主题的发展现状。

应该注意的是本文分析存在一定的局限性,由于战略分析方法涉及文本特征词抽取、规范、聚类等一系列的操作,过程较为复杂,得到的结果并不一定都符合预期,势必会掺杂噪音,因此对特征词选取、规范化需要严格谨慎,这对分析人员提出了较高的要求。限于本文篇幅,未对不同时期的技术主题变化进行对比研究,有待后期研究的进一步探讨。

猜你喜欢
特征词象限聚类
勘 误
复数知识核心考点综合演练
基于类信息的TF-IDF权重分析与改进①
常数牵手象限畅游中考
基于K-means聚类的车-地无线通信场强研究
基于改进TFIDF算法的邮件分类技术
OPEN:一个基于评论的商品特征抽取及情感分析框架
平面直角坐标系典例分析
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现