李顺
(黑龙江大学信息管理学院 哈尔滨 150080)
基于知识图谱的数字档案馆研究可视化分析
李顺
(黑龙江大学信息管理学院 哈尔滨 150080)
随着信息技术的发展与渗透,我国数字档案馆的理论研究硕果颇丰,实践经验不断积累。本文以收录于CNKI的核心期刊论文和硕博论文为文献来源,以CitespaceⅤ为主要分析工具,对我国数字档案馆研究现状和研究前沿进行可视化分析,以期为过去的数字档案馆研究工作提供经验总结和未来的数字档案馆研究方向提供思路。
数字档案馆 Citespace 可视化分析
以CNKI为检索平台,以篇名为检索项,检索词为“数字档案馆”,将数据来源设定为北大最新核心期刊目录中我国档案事业的八本核心期刊:《档案学研究》《档案学通讯》《中国档案》《北京档案》《档案管理》《浙江档案》《档案与建设》和《山西档案》,选中“中英文扩展检索”,检索时间为2016年11月25日上午10时56分,检索到论文462篇,过滤掉与本文不相关的期刊卷首语和新闻报道30篇,得到有效论文样本432篇。为了提高数据的完整性和分析结果的客观性,再以CNKI为检索平台,以关键词为检索项,检索词为“数字档案馆”,年限不限,优秀论文级别不限,检索到硕博论文166篇,经浏览、核对,所有硕博论文均符合本文的数据要求,取全部作为有效论文样本。
本文所使用的分析工具为Microsoft Excel 2013和CitespaceⅤ。Microsoft Excel 2013是微软公司开发的办公软件Microsoft Office的组件,具有强大的数据处理、分析的功能。本文拟运用Microsoft Excel 2013统计每年的论文发文量,并以此得出折线图,为分析我国数字档案馆研究现状及变化趋势提供依据。CitespaceⅤ是应用Java语言开发的基于共被引分析的可视化软件,通过对科学文献的共被引进行分析,得出学科领域演化的路径和知识拐点。运用CitespaceⅤ,用户可以根据同一数据样本,通过不同的属性设置,得出不同的知识图谱,以从多个角度展示数据演化特征。在知识图谱中,节点的大小与其出现的频次呈正相关的关系,节点越大,说明其出现频次越多;节点越小,说明其出现频次越少。Burst Terms(突现词)是指某段时间内频次变化率高的词,用户可以据此分析科学领域的研究前沿。本文拟运用Citespace软件探索我国数字档案馆研究的作者分布、研究热点和研究前沿。
对检索结果按照年度进行汇总,得到表1。从表1中可以看出,我国最早研究“数字档案馆”的期刊论文是发表于2000年的三篇论文,最早的硕博论文发表于2001年。图1是根据表1生成的折线图,直观地反映出17年间我国数字档案馆研究的期刊发文量、硕博论文量和论文总量走势。图1显示,期刊发文量反复无常,共出现三个峰值和两个低谷。在研究初期,硕博论文量稳步上升,在2004年达到峰值,但是随后迅速下降,直到2006年出现第一个低谷。在2006年至2009年,期刊论文量再次出现波动,随后至2014年,能够呈现稳步发展的态势,并于2014年达到峰值,这是我国学者开始研究“数字档案馆”以来的最高峰值。但是自2014年以来,期刊论文发文量有下降趋势。总的来说,我国数字档案馆研究的发文量有多次波动,但是整体上呈现上升趋势。与期刊论文不同,硕博论文的发文量波动不大,发展平稳。最早研究“数字档案馆”的硕博论文出现在2001年,在之后的三年内,成果寥寥。从2003年开始,论文数量有所增加,但是并未持续太长时间,2005年之后,开始减少,并在2006年达到最低值。由此可以看出,“数字档案馆”在其发展初期,并未受到硕士生和博士生的青睐。2006年以后,硕博论文数量开始增加,波动微小,在2007年至2014年的八年间,硕博论文的数量每年都会保持在13篇以上,在2014年达到最大值21篇。近两年来,硕博论文又有下降的趋势。
表1 数字档案馆研究年度论文量统计表
图1 数字档案馆研究发文量年度分布折线图
“数字档案馆”发展的17年,可以分为两个阶段:探索期(2000—2009)和拓展期(2010年至今)。在探索期,期刊论文量波动较大,折线图上清晰地呈现出两个“∩”形状,表示我国学者曾经进行过两次艰难的探索,第二次探索的峰值和最低值都比初次探索大,由此可见,在初次探索研究成果的基础上,对“数字档案馆”的第二次探索吸引了越来越多的学者。在拓展期,2010年6月,国家档案局发布了《数字档案馆建设指南》,对数字档案馆的建设、系统功能、开发与服务平台的构建、档案信息资源建设、保障体系建设等工作提出要求,这是我国第一个关于数字档案馆建设的政策性文件,它不仅为数字档案馆建设实践作出指示、提供参考,还带来了我国数字档案馆研究的新高潮。
1.高频作者选取。在CitespaceⅤ软件界面中,设置Time=“From 2000 To 2016”,Year Per Slicing=“1”,Node Type=“Auther”,Selection Criteria设置为TOP N,N=50。运行CitespaceⅤ,设置Threshold=2,即选取出现频次大于2的作者,得到数字档案馆研究作者分析图谱(图2)、数字档案馆研究高频作者信息表(表2)和数字档案馆研究突现作者信息图(图3)。
图2 数字档案馆研究作者分析图谱
图3 数字档案馆研究突现作者信息图
表2 数字档案馆研究高频作者信息表
从分析图谱中可以看到,从数字档案馆研究的第一篇论文出现的2000年,到2016年的17年间,发文量最高的是傅荣校、薛四新等人,其中潘连根、金更达和程妍妍三人能够在两三年内取得较多研究成果,平均每年发文量均在三篇以上。
2.高频作者分析。傅荣校是我国最早研究“数字档案馆”的众多学者之一,其最早关于数字档案馆的论文是发表于2001年的《关于数字档案馆的思考》和《认识数字档案馆——兼论数字档案馆与虚拟档案馆的区别》。前者对数字档案馆的概念进行了界定,并剖析了数字档案馆与档案馆上网、数字档案馆与档案馆的数字化的区别和联系;对比了数字档案馆与传统档案馆的功能,指出“数字档案馆无论在技术与管理理念上都要比传统档案馆更先进”;探索数字档案馆与电子文件的关系,认为“电子文件的保管模式直接影响数字档案馆的技术支持”;研究了数字图书馆与数字档案馆的区别,建议数字档案馆的建设应该借鉴图书情报部门对数字图书馆的研究成果[1]26。《关于数字档案馆的思考》在中国知网上被下载585次,被引用59次,被引率(被引用次数与被下载次数的比值)10%,观点鲜明,为我国数字档案馆研究奠定学术基础。
金更达对数字档案馆的建设问题和服务模式作出了深入研究,认为在政务信息公开的环境下,集成管理和集成服务模式是数字档案馆的最佳模式[2]55,并且该模式已经在杭州市滨江区数字档案馆实现。在《基于OAIS的数字档案馆系统框架研究》一文中,在OAIS参照模型的基础上,构建由四个应用系统和两个存储系统组成的数字档案馆系统参照模型[3]42。在《功能需求分析——数字档案馆系统设计之一》一文中,分析了数字档案馆面临的信息环境、管理对象与管理目标,并在此基础上提出数字档案馆建设的九大功能需求,为我国数字档案馆的建设实践提供参考[4]42。
薛四新的研究主题主要是数字档案馆建设,但2012年以后有明显的转折,开始对云数字档案馆的建设、运行和安全问题进行探讨。《面向服务架构的数字档案馆建设方案研究》一文中,提出面向服务架构的、基于IT集约化运营理念的数字档案馆的建设方案[5]47。在《云数字档案馆风险评估研究框架》一文中,建立云数字档案馆风险评估的研究框架并阐释其核心内容”,为云数字档案馆风险评估体系的构建奠定基础[6]90。
1.研究热点。论文的关键词(Keyword),是论文的研究精髓和议论核心,能够高度概括文章的研究主题。本文拟选用关键词分析研究热点。设置Node Type=“Keyword”,其他选项设置不变,运行CitespaceⅤ。为了使图谱达到简洁、清晰的效果,本文在结果中作出如下处理:(1)剔除无实意机构名如“国家档案馆”、“国家档案局”、“市档案馆”等。(2)同一含义词语的不同表达中,剔除所有频次低的表达,只保留频次最高的。如档案数字化、数字化档案、档案数字信息、数字化、数字档案等均指经过数字化处理的档案,它们是不同作者对这一概念的不同称呼,本文只保留频次为54的“档案数字化”,过滤掉其他称呼。(3)剔除外延极大于本文研究主题“数字档案馆”外延的词,如“档案工作”“档案事业”等。(4)设置Threshold=2。得到数字档案馆研究热点图谱,如图4所示。
图4 数字档案馆研究热点图谱
从图4可以看出,数字档案馆研究的17年间,研究热点有档案数字化、数字档案馆建设、档案数据库、信息服务、电子政务、档案利用、OAI、资源共享、云计算、信息安全等。
以四年为一个时间区间,对关键词进行如下处理:(1)将具有相同含义的不同表达进行统一化处理。(2)出现某一概念的多个下位概念的,取其上位概念。得到表3。(3)表3显示,2002年至2003年,研究热点有数字档案馆、档案信息、档案数字化、数字档案馆建设;2004年至2007年,研究热点有电子政务、电子文件、档案信息服务、OAI;2008年至2011年,研究热点有云技术、信息生态、知识管理;2012年至今,研究热点有生态系统、云计算技术、大数据、公共服务。
表3 时间区间研究热点统计表
2.研究前沿分析。运用CitespaceⅤ的突现词探测功能,探测出数字档案馆研究领域从兴起至今的17年间,共出现15个突现词,如图5所示。对15个突现词进行归纳总结,得出数字档案馆研究的前沿领域有数字档案馆与电子政务、数字档案馆与云计算、数字档案馆与生态系统。
图5 数字档案馆研究领域突现词
(1)数字档案馆与电子政务。电子政务兴起于20世纪90年代,是一种以计算机、网络通信等技术为手段的新型政府运作模式。电子政务建设与数字档案馆建设在技术基础、结构布局、运作原理上均有相同之处,我国多名学者认为二者应该建立联系,有机结合,达到共赢。连志英认为“将电子政务和数字档案馆建设有机结合起来,是我国数字档案馆建设及电子政务建设的必由之路”[7]54,强调数字档案馆建设在电子政务发展中的重要性。温献英指出,将数字档案馆建设纳入电子政务建设规划中,是加强数字档案信息资源国家控制力的途径之一[8]14。
(2)数字档案馆与云计算。云是一种抽象的说法,通常指互联网和通信设备。云计算在20世纪初得到了快速的发展,具有计算能力强、运作成本低等优点,影响范围大,应用市场广阔。云计算在我国数字档案馆研究领域备受青睐,大量学者对云计算在数字档案馆建设中的应用进行理论探讨,并认为云计算在数字档案馆建设中具有积极的影响力和明显的优势。何正军、金波说,“云计算的出现给数字档案馆建设带来了新的机遇”,并对云计算应用于数字档案馆建设进行了优势分析,认为云计算在异地档案信息资源共享、档案信息资源安全保障、节约数字档案馆建设成本和档案信息资源个性化服务等方面均有优势[9]6。在《数字档案馆云计算建设模式的思考——以北京市区域性数字档案馆为例》一文中,薛四新等人指出为了区域内档案事业的整体发展,应该在以云计算为基础的IT集约化建设思想的牵引下建设区域性数字档案馆[10]63。
(3)数字档案馆与生态系统。生态系统属于生态学,本意是指生物群落与无机环境构成的统一整体。这一概念引入档案界之后,我国学者从其定义、特点、结构、功能和发展动力等方面进行了探索。金波等人结合生态系统的概念,将数字档案馆生态系统定义为“数字档案馆空间范围内的人与其生存环境相互作用而形成的统一的复合体”[11]54,为数字档案馆生态系统的研究奠定基础。在《论数字档案馆生态系统的功能》一文中,倪代川等人认为数字档案馆生态系统具有集聚功能、整合功能、优化功能、抵抗功能和竞争功能并对其进行了分析与探索。倪代川、金波在《数字档案馆生态系统发展动力探析》一文中指出,在大、云、平、移等新技术的快速发展背景下,数字档案馆生态系统发展动力源有四个:政策保障、技术驱动、资源剧增和用户成长[12]99。
[1]傅荣校.关于数字档案馆的思考[J].档案学通讯,2001(05):26-28.
[2]金更达,何嘉荪.数字档案馆模式探讨——基于元数据的电子文件集成管理与服务研究之二[J].档案学通讯,2005(05):54-58.
[3]金更达.基于OAIS的数字档案馆系统框架研究[J].浙江档案, 2007(04):38-41+45.
[4]金更达,何达多,何嘉荪.功能需求分析——数字档案馆系统设计之一[J].档案学研究,2005(04):42-46.
[5]薛四新.面向服务架构的数字档案馆建设方案研究[J].档案学研究,2007(04):45-47.
[6]徐华,薛四新.云数字档案馆风险评估研究框架[J].档案学研究, 2016(05):90-93.
[7]连志英.电子政务中的数字档案馆[J].档案学研究,2007(02):53-55.
[8]温献英.加强数字档案馆信息资源国家控制力的思考[J].山西档案,2011(02):12-15.
[9]何正军,金波.云计算与数字档案馆建设新机遇[J].档案与建设, 2015(12):4-8.
[10]薛四新,陶水龙,崔伟.数字档案馆云计算建设模式的思考——以北京市区域性数字档案馆为例[J].档案学研究,2012(03):62-64.
[11]金波,汤黎华,何伟祺.数字档案馆生态系统的建构[J].档案学通讯,2010(01):53-57.
[12]倪代川,金波.数字档案馆生态系统发展动力探析[J].档案学研究,2016(04):97-102.
Visual Analysis of Digital Archives Based on Knowledge Map
Li Shun
(Information Management School of Heilongjiang University,Harbin 150080,China)
With the development and penetration of information technology,China's theoretical research on digital archives obtains great achievements and practical experience is constantly accumulated.With core journals and papers included in the CNKI as literature source,and Citespace V as the main analytical tool,this paper makes a visual analysis on current situation and research frontier of digital archives in China,in order to sum up experience of the past and provide ideas on the future development of the digital archives research.
digital archives;Citespace;visual analysis
G270.7
A
2016-12-14
10.16565/j.cnki.1006-7744.2017.08.01
李顺为黑龙江大学信息管理学院档案学专业在读硕士,研究方向为信息技术与档案信息管理。