基于网络演化的领域知识发展趋势研究

2016-09-23 01:17赵汝南常志远刘雅姝滕广青东北师范大学计算机科学与信息技术学院长春130117
数字图书馆论坛 2016年3期
关键词:网络分析聚类领域

赵汝南,常志远,姜 博,刘雅姝,陈 思,滕广青(东北师范大学计算机科学与信息技术学院,长春 130117)



基于网络演化的领域知识发展趋势研究

赵汝南,常志远,姜博,刘雅姝,陈思,滕广青
(东北师范大学计算机科学与信息技术学院,长春 130117)

知识的演进与发展问题是图书情报学界的重要课题之一。研究中从时间序列的视角出发,通过对特定领域文献关键词的提取,基于关键词共现关系构建领域知识网络。采用网络密度、聚类系数、特征路径长度、点度中心势、中介中心势等多种分析方法,对领域知识网络的发展态势进行跟踪与分析。研究结果表明,领域知识的发展趋势总体上向小世界状态迈进,而且领域知识的中心性会随着知识发展逐渐显现,为基于复杂网络的理论与方法对领域知识的发展趋势进行分析与研判做出了有益的尝试。

复杂网络;领域知识;知识网络

1 引言

对学科领域知识的发展进程进行研究一直以来就是图书情报学领域的重要课题。1965年,普赖斯(D J Price)[1]发表的《科学论文的网络》中提出并界定了学科领域“研究前沿”的概念,为网络思维下领域知识发展研究奠定了理论基础。特别是近年来,复杂网络(Complex Network)[2]的理论与方法在众多科学领域的研究工作中显现出得天独厚的优势,为复杂网络视角下的领域知识发展研究带来了新的契机。

有鉴于此,本研究将以特定知识领域作为研究对象,借助复杂网络的思想,基于关键词共现关系构建领域知识网络。采用网络密度、聚类系数、特征路径长度、点度中心势、中介中心势等分析方法,对领域知识的发展展开时间序列的跟踪与分析,以期通过对领域知识网络发展过程中特征与规律的挖掘与研判,揭示领域知识的发展趋势。

2 研究现状

英国著名情报学家布鲁克斯(B C Brooks)[3]在《情报学基础》(The Foundations of Information Science)中最早提出了“知识地图”的概念。随后在布鲁克斯“知识地图”的雏形上,知识的网络化描述思想逐渐融入图书情报学的研究领域与实践工作。20世纪90年代,埃格(L Egghe)[4]在《情报计量学引论》(Introduction to Informetrics)中对多元统计分析、网络分析及其在引文网络分析中的应用进行了阐述,丰富了引文分析方法,促进了网络思维在知识相关问题研究中的应用。事实上,早在20世纪60年代开始,国际学术界就已经掀起了一股网络分析的热潮。先是米尔格兰姆(S Milgram)[5]“六度分割”的“小世界”理论,接着是弗里曼(L C Freeman)[6]的“网络结构决定网络功能”的思想,这些都为网络思想在多学科中的应用奠定了基础。特别是20世纪末,斯托加茨(S H Strogatz)[7]和巴拉巴西(A L Barabasi)[8]等人陆续在《自然》(Nature)和《科学》(Science)杂志上发表文章,在多个学科领域中将网络视域下的结构主义推向了学术的巅峰,使得复杂网络分析的思想与方法真正被学术界普遍接受,并被应用于众多的学科领域。

近年来,在知识领域的相关问题研究中,复杂网络分析的方法也被广泛引入。IBM研究院的克劳斯(R Cross)[9]认为,复杂网络分析有助于可视化理解信息环境中众多的关联关系,并借助网络分析提炼了潜在知识构建所涉及的主要维度关系。约翰·霍普金斯大学的利博维茨(J Liebowitz)[10]则提出复杂网络能够提供更丰富的知识关联关系,并能够为传统的知识层级结构做出更细致的解释。华盛顿州立大学的萨卡尔(S Sarker)[11]将复杂网络分析应用于知识群落中的核心知识的识别研究,并采用网络分析中的“结构/关联”方法,通过对网络中节点关系的分析,揭示处于网络中心位置的核心知识。加拿大纽芬兰纪念大学的威尔逊(G Wilson)[12]借助网络分析中的节点度、网络密度、邻近权威3个指标,探测机构内部电子邮件网络。他们的研究表明,网络密度和邻近权威更有利于揭示和发现知识网络的关键核心节点。胡(C Hu)[13]基于历时5年的期刊文献合著数据,应用复杂网络分析探索特定学科领域的知识网络结构和网络属性,通过文献作者间的合著关系建立了知识内容与作者混合网络,并重点分析了该网络中的“核心-边缘”结构。研究结果显示,在网络的中心和外围区域,学术论文的出版模式都呈现出幂律分布。杨(J Yang)[14]及其合作者运用复杂网络分析的方法对特定领域中的文献内容进行分析,直接从文献中抓取知识概念,并依据其上下文关系构建知识网络,进而根据知识网络的结构及其动态演化规律提取网络中知识单元间的关系。他们认为,复杂网络分析避免了二元关系模型的不足,能够呈现知识间完整的关联关系,并有利于更深层次地揭示网络背后的属性结构关系。意大利学者考萨(M Coscia)[15]提出,数字化书目是一种汇集了海量学术出版物信息的强大的数据资源。他们把网络分析应用于书目数据库的知识脉络研究,基于关系呈现构建了书目关系网络,进而采用数据挖掘技术与网络分析相结合的方法,对局部和全局书目网络进行综合的分析与揭示。克拉夫特(J Krafft)[16]进一步以复杂网络分析为主要研究方法,对特定学科领域的知识动力学展开了研究。在这一研究中,研究者将专利文献中的技术视为知识流动的最小单位,知识的结构被视为由具有社群属性的技术节点及其相互关系构成的网络。进而直接通过对基于技术共现形成的网络密度、点度中心度、接近中心度、中介中心度等指标的测算,提供关于知识结构与演进的综合描述。研究表明,知识间关联关系的演进可以反映技术知识的新陈代谢及其生命周期。德国亚琛大学的范姆(M C Pham)[17]将期刊论文和会议论文结合起来,采用复杂网络分析的方法,借助论文中的引用关系分别构建了期刊关系网络、主题关系网络、知识关系网络,综合作者合著关系与引用关系调查知识间的引用行为,计算知识主题的中介中心度,判识子学科的发展趋势。

国内学术界这方面的研究成果主要集中于文献计量学领域的合作关系分析[18]、科研团队发现[19]等问题。其中,朱庆华[20]的研究表明,复杂网络分析作为一种新的科学研究思想和方法,早已被应用于图书情报领域,学者们通过复杂网络分析方法,在竞争情报、知识管理、作者合著网络及领域热点分析等方面展开了专门的研究。这其中,刘则渊[21]采用复杂网络分析的方法对共词网络进行了聚类分析,挖掘了特定学科领域的主题,并对领域的热点和未来发展方向进行了预判。赵蓉英[22]基于引文数据和主题数据,采用复杂网络分析的方法对特定知识领域的学科主题和研究热点进行了揭示。

综上所述,在基于复杂网络的理论与方法对知识相关问题进行研究方面,目前已经取得了较为丰富的成果,但其中大多数研究尚停留在静态分析层面。有鉴于此,本研究从时间序列的视角,以领域知识网络的时序演化为基础,对领域知识的发展趋势从多个方面展开分析研究。

3 数据采集与网络构建

3.1 数据采集

本研究以中国国家知识基础设施(National Knowledge Infrastructure,CNKI)数据库作为基础数据源,在高级检索中选择按主题检索并将检索主题设为“电动汽车”并含“充电桩”,匹配模式为精确,发表时间为全部年限进行检索。检索日期为2015年12月25日,共检索到2009~2015年的相关期刊文献共725篇。

以时间序列为线索,以年份为时间刻度,将文献的累积数据按时间窗口分割,并绘制各年文献累计量曲线。2009~2015年,电动汽车充电桩领域的文献累计量呈持续递增趋势,具体参见图1。

图1 领域文献累计量曲线

3.2 矩阵构建与转换

对检索出的725篇相关文献进行关键词提取,并按年份构建领域关键词的多值共现矩阵,即当两个关键词出现在同一文献中时,则其两者间存在关联关系,计数为1。以此累计,当数值越大时,就表明两个关键词之间的共现频次越高,关系也就越密切。文献中的关键词经过研究作者和审稿人的多层审核,极少出现歧义、近义等现象,即使个别文献出现关键词歧义、近义现象也不做单独处理,而是通过二值转化时的临界值统一对不具备普遍意义的关键词做出筛选。多值共现矩阵中对角线的数值为关键词在所有文献中总共出现的次数。根据上述方法对检索得到的相关文献的关键词提取后,按照时间序列共生成2010~2015年各年的关键词多值共现矩阵共6个。其中由于2009年文献仅有两篇,研究中将其并入2010年关键词多值共现矩阵,不再单独讨论。以2011年关键词多值共现矩阵为例,其矩阵结构如表1所示。

表1 2011年关键词多值共现矩阵(节选)

以各个时间窗口的共现频次的均值为临界值,将上述获得的6个关键词多值共现矩阵进行二值化处理。即当矩阵中两个关键词同时出现在一篇文献中的频次大于等于均值时,视为具有显著关联关系,记为1;如果两个关键词同时出现在一篇文献中的频次小于均值,则视为不具有显著的关联关系,记为0。按此方法对矩阵进行转换,可以得到关键词二值共现矩阵,以便于在后续研究中对领域知识发展趋势进行识别与分析。以其中2010年关键词二值共现矩阵为例,部分数据如表2所示。

表2 2010年关键词二值共现矩阵(节选)

3.3 领域知识网络构建

以关键词为节点,以关键词之间的显著关联关系为连线,基于转换后的6个时间窗口下的关键词二值共现矩阵,构建时间序列领域知识网络,如图2所示。

图2 时间序列领域知识网络

在图2中,各个时间窗口的领域知识网络呈现的是领域中较为重要的知识节点及其关联关系,由于经过临界值筛选,孤立节点和低频次关联关系已经被剔除。因此,基于图2中的时间序列领域知识网络展开分析工作,将能够较好地把握领域中重要知识的发展趋势。

4 领域知识发展趋势分析

4.1 领域知识网络基本属性分析

在复杂网络中,网络密度反映的是节点间联系的密集程度,领域知识网络的密度越大,则表明该网络的知识节点间的联系就越密集,知识之间产生的相互影响也就越大。表3为该领域6个时间窗口中领域知识网络相应的密度,由数据可以看出领域知识网络的密度在时间序列上呈现出下降趋势。这一现象说明,随着时间轴的延展,网络内各知识节点的整体联系程度逐渐松散,大量的知识不断涌入领域中。这进一步表明该领域是一个处于发展中的学科领域,正处在不断成长过程中,相关的领域知识涉及多个其他学科领域,是一门与其他学科交互较多的领域。

表3 时间序列领域知识网络整体密度

复杂网络的聚类系数反映网络节点群落特性的聚集程度,领域知识网络的聚类系数描述出该领域内知识之间趋近于团簇或群落的情况。图2所示的时间序列领域知识网络的基于局部密度的聚类系数计算结果如表4所示。

表4 时间序列领域知识网络聚类系数

表4中,尽管6个时间窗口的聚类系数稍有波动,但总体上保持较高的数值(大于0.88)。这说明在整个时间区间内,基于关键词共现关系构建的领域知识网络具有显著的团簇特征,或者说具有较高程度的模块结构。即各个时间窗口的领域知识网络中,较重要的知识节点(关键词)之间具有较高的群落性,并且这种群落性在整个时间区间内一直保持。

对时间序列领域知识网络的特征路径长度进行考察,计算获得6个时间窗口领域知识网络的距离分布如表5所示。

表5 时间序列领域知识网络距离分布

表5的6个时间窗口中,距离为2的情况一直占有绝对多数,其中最低的比率为占总数的75%(2013),其他时间窗口都在80%以上。这明确地显示出,随着领域知识的发展,领域中绝大多数知识之间的距离为2。进一步对表5中时间序列领域知识网络的平均距离进行考察可以发现,虽然随着时间的推移,网络中的知识节点不断增加,但网络中任何两个知识节点之间的平均距离保持在1.803~2.252。这意味着网络中2个知识节点之间仅有一个中间节点,即领域知识网络中知识之间平均通过1个中间知识就可以建立联系。

将网络密度、聚类系数和特征路径长度结合起来考察可以发现,随着时间轴的延展,领域知识不断扩容。在整个时间序列上,该领域的知识网络的网络密度逐渐下降,网络越来越稀疏。而且整个网络自始至终保持着高度的聚类性,特征路径长度总体上为2。结合图2的时间序列领域知识网络综合分析,在时间序列的前半阶段网络是不连通的状态,时间序列的后半阶段网络演变为连通网络。根据沃茨(D J Watts)[23]的观点可知,领域知识网络演化的过程中逐渐表现出小世界[5]的特征趋势。

4.2 领域知识网络中心性分析

网络的点度中心性反映一个网络的核心程度,研究中基于弗里曼(L C Freeman)[24]提出的方法,对基于关键词二值共现矩阵构建的时间序列领域知识网络(参见图2)的点度中心势进行了考察,相关指标数据走势如图3所示。

图3 时间序列领域知识网络点度中心势

图3中领域知识网络的点度中心势并未表现出始终如一的发展趋势,而是呈现出一种先抑后扬的态势。在时间轴的前半段,领域知识网络的点度中心势逐渐下降,反映出这一时间区段内,领域知识不断扩充,大量的相关学科知识参加进来,随着网络节点的增加,领域的核心焦点也趋于淡化。在时间轴的后半段,领域知识网络的点度中心势逐渐上升,反映出这一时间区段内,领域知识不断扩充的同时,领域知识的核心焦点也在重新凝聚。这一现象反映出研究中所选取的知识领域目前正处于发展时期,一方面发展过程中不断加入和涌现的新知识使得核心知识的地位不再显著;另一方面随着研究工作的开展,领域核心知识也在重塑甚至新生。领域知识的发展趋势最终将走向具有鲜明的领域核心的状态。

网络的中介中心性反映的是节点对网络资源的控制程度,在领域知识网络中,中介中心性能够描述通过中间知识将不同的知识进行桥接的程度。研究中采用弗里曼(L C Freeman)[6]的中介中心性计算方法,对基于关键词二值共现矩阵构建的时间序列领域知识网络(参见图2)的中介中心势进行计算,获得时间序列领域知识网络的中介中心势走势如图4所示。

图4 时间序列领域知识网络中介中心势

在图4中,时间序列领域知识网络的中介中心势虽然略有起伏,但整体上呈现出上升趋势。网络中介中心势由初始时刻的45.69%增长到2015年的60.64%,而且时间轴的后半段比前半段有普遍提高。这一现象说明,在领域知识发展过程中,尽管网络中的知识节点逐年增加,但是新增的知识节点并没有一味地简单形成小规模碎片区域,而是随着知识节点数量的增加,有许多知识节点通过中间知识建立起连接,并且这种连接呈现出总体上升趋势。与图2中领域知识网络结构的时间序列发展过程结合考察,领域知识网络从早期的不连通状态到后期的联通状态,反映出该领域知识在发展过程中也在不断地成熟。

5 结语

本研究通过对特定领域文献关键词的提取,基于关键词共现关系构建基于关键词的领域知识网络。从时间序列的视角采用网络密度、聚类系数、特征路径长度、点度中心势、中介中心势等多种分析方法,对领域知识网络的发展态势进行跟踪与分析。通过各项指标在时间序列上的变化情况,对于领域知识的发展趋势初步可以得出如下结论:

(1)领域知识的发展趋势总体上向小世界状态迈进。研究中发现,一个特定的知识领域在其成长发展过程中,领域内相关知识文献必然是不断地积累和增长,从而促使领域内的知识容量与规模不断扩大。从时间序列上看,这种领域知识的不断扩充导致领域知识网络内部知识节点数量的不断增加,也使得知识网络的密度在发展过程中呈下降趋势。密度下降的同时,领域知识网络却一直保持着较高的聚类系数,这种高聚类系数标志着领域知识内部蕴含着团簇化、群落化的潜在发展模式。如果说从大的方面看,知识领域内部高内聚,知识领域之间低耦合,那么这种高内聚低耦合的特征也嵌套于知识领域内部。由于知识领域自身的主题性,高聚类系数并没有在领域内部完全彻底地造成割据,反而是较短的特征路径长度刻画出领域内部知识之间仅需少量知识就能够联系起来。这说明在领域知识的不断积累增长过程中,其发展趋势在总体上向小世界状态迈进。

(2)领域知识的中心性会随着知识发展逐渐显现。一方面,在复杂网络理论中,小世界状态除了较高的聚类系数和较短的特征路径长度特征外,往往还伴随着去中心化。然而在针对时间序列领域知识网络的中心性分析中发现,在时间轴的前半段,领域知识网络的点度中心势呈现下降趋势,领域核心知识的显著性并没有赶上领域知识扩充的步伐。然而随着该知识领域逐渐发展成熟,网络的点度中心势在时间轴的后半段又逐年递增,领域的知识核心被重新凝聚。另一方面,网络的中介中心势在整个时间区间内呈现波动性上升趋势,也就是说尽管新知识的扩充和加入给中介中心势造成波动,在整体趋势上领域知识网络的中介中心势却保持着增长势头。这与领域知识的小世界趋势相契合的同时,也进一步说明随着领域知识的发展,更多的领域知识通过中间知识彼此建立了关联关系,彰显了格雷克(J Gleick)[24]在《信息简史》中反复强调的知识的连通性。

尽管本研究以特定领域知识的发展过程为对象,采用复杂网络的诸多分析方法,从领域知识网络演化的角度,对领域知识的发展趋势进行了较为细致的分析,但是研究中也还存在不足之处。所采用研究数据并没有穷尽该领域知识的全部,不同知识领域所处的不同发展状态尚不全面,有待于未来工作中进一步深入展开研究。

[1] Price D J. Networks of scientific papers [J]. Science, 1965, 149(3683):510-515.

[2] Lewis T G.网络科学:原理与应用[M].陈向阳,巨修炼,等,译.北京:机械工业出版社,2011:87-140.

[3] Brooks B C. The foundations of information science: part IV. Information science: the changing paradigm [J]. Journal of Information Science, 1981, 3(1): 3-12.

[4] Egghe L, Rousseau R. Introduction to informetrics: quantitative methods in library, documentation and information science [M]. Amsterdam:Elsevier, 1990: 112.

[5] Milgram S. The small world problem [J]. Psychology Today, 1967, 1(1):61-67.

[6] Freeman L C. Centrality in social networks conceptual clarification [J]. Social Networks, 1979, 1(3): 215-239.

[7] Strogatz S H, Watts D J. Collective dynamics of "small world" networks [J]. Nature, 1998, 393(6684): 440-442.

[8] Barabasi A L, Albert R. Emergence of scaling in random networks [J]. Science, 1999, 286(5439): 509-512.

[9] Cross R, Parker A, Borgatti S P. A bird's-eye view: using social network analysis to improve knowledge creation and sharing [R]. Somers: IBM Corporation, 2002: 1-17.

[10] Liebowitz J. Linking social network analysis with the analytic hierarchy process for knowledge mapping in organizations [J]. Journal of Knowledge Management, 2005, 9(1): 76-86.

[11] Sarker S, Kirkeby S, et al. Path to "stardom" in globally distributed teams:an examination of a knowledge-centered perspective using social network analysis [J]. Decision Sciences, 2011, 42(2): 339-370.

[12] Wilson G, Banzhaf W. Discovery of email communication networks from the enron corpus with a genetic algorithm using social network analysis [C]// CEC'09 Proceedings of the Eleventh conference on Congress on Evolutionary Computation. Piscataway: IEEE Press, 2009:3256-3263.

[13] Hu C, Racherla P. Visual representation of knowledge networks: A social network analysis of hospitality research domain [J]. International Journal of Hospitality Management, 2008, 27(2): 302-312.

[14] Yang J, Shen Q, Ho M. An overview of previous studies in stakeholder management and its implications for the construction industry [J]. Journal of Facilities Management, 2009, 7(2): 159-175.

[15] Coscia M, Giannotti F, Pensa R. Social network analysis as knowledge discovery process: a case study on digital bibliography [C]// ASONAM '09 Proceedings of the 2009 International Conference on Advances in Social Network Analysis and Mining. Washington DC: IEEE Computer Society, 2009: 279-283.

[16] Krafft J, Quatraro F, Saviotti P P. The knowledge base evolution in biotechnology: A social network analysis [J]. Economics of Innovation and New Technology, 2011, 20(5): 445-475.

[17] Pham M C, Klamma R, Jarke M. Development of computer science disciplines—A social network analysis approach [J]. Social Network Analysis and Mining, 2011, 1(4): 321-340.

[18] 邱均平,王菲菲.基于SNA的国内竞争情报领域作者合作关系研究[J].图书馆论坛,2010,30(6):34-40,134.

[19] 李纲,李春雅,李翔.基于社会网络分析的科研团队发现研究[J].图书情报工作,2014,58(7):63-70,82.

[20] 朱庆华,李亮.社会网络分析法及其在情报学中的应用[J].情报理论与实践,2008,31(2):179-183.

[21] 刘则渊,尹丽春.国际科学学主题共词网络的可视化研究[J].情报学报,2006,25(5):634-640.

[22] 赵蓉英,王菊.图书馆学知识图谱分析[J].中国图书馆学报, 2011,37(3):40-50.

[23] Watts D J. Network, dynamics and the small-world phenomenon [J]. American Journal of Sociology, 1999, 105(2): 493-527.

[24] Gleick J.信息简史[M].高博,译.北京:人民邮电出版社,2013:409-421.

赵汝南,女,1991年生,硕士研究生。

常志远,男,1989年生,硕士研究生。

姜博,男,1983年生,硕士研究生。

刘雅姝,女,1993年生,硕士研究生。

陈思,女,1993年生,硕士研究生。

滕广青,男,1970年生,副教授,研究方向:网络信息资源管理,通讯作者,E-mail:tengguangqing@163.com。

Study on Development Tendency of Domain Knowledge Based on Network Evolution

ZHAO RuNan, CHANG ZhiYuan, JIANG Bo, LIU YaShu, CHEN Si, TENG GuangQing
(School of Computer Science and Information Technology NENU, Changchun 130117, China)

Evolution and development of knowledge is an important issue of Library and Information academia. In this study, from the perspective of time series, keywords of literature are extracted in particular domain, and domain knowledge networks are constructed based on keyword co-occurrence relationship. Using a variety of analytical methods network density, clustering coefficient, characteristic path length, degree centralization, betweenness centralization, etc., the development of situation in domain knowledge networks is tracked and analyzed. The results show that the overall trend of domain knowledge development is moving to the status of small world, and centrality of domain knowledge will appear gradually with the development of knowledge. A helpful attempt is made for analyzing and judgment on development tendency of domain knowledge based on complex network theory and methods.

Complex Network; Domain Knowledge; Knowledge Network

G353.1

10.3772/j.issn.1673-2286.2016.3.004

2016-02-01)

猜你喜欢
网络分析聚类领域
基于ISM模型的EPC项目风险网络分析
基于K-means聚类的车-地无线通信场强研究
领域·对峙
铁路有线调度通信的网络分析
基于高斯混合聚类的阵列干涉SAR三维成像
2016年社交网络分析
新常态下推动多层次多领域依法治理初探
一种层次初始的聚类个数自适应的聚类方法研究
大班幼儿同伴交往的社会网络分析
自适应确定K-means算法的聚类数:以遥感图像聚类为例