科研产出元数据监护系统的开发与实践——以暨南大学图书馆为例*

2015-12-31 09:13汤敬谦杨鹤林王小强
图书馆论坛 2015年5期
关键词:科研人员监护检索

汤敬谦,杨鹤林,王小强

0 项目背景

科学数据是信息时代最基本、最活跃、影响面最宽的战略资源,其与科技创新和社会进步密不可分,这在国际科学界已形成共识。广义的数据概念包括元数据和数据,前者是对后者的描述,通过元数据可以识别、评价、追踪信息在使用过程中的变化,实现有效发现、组织和管理。作为有效描述信息的元数据正受到越来越多的重视,故要对数据进行长期保存和再利用,应当首先开展元数据设定、登记、标准化等管理工作[1]。

对高校等科研机构来说,论文是其最典型的科研产品。随着科研投入不断增加,高校论文产出量越来越大,2012 年SCI 收录中国科技论文19.01 万篇,占12.08%,排世界第2 位,其中“表现不俗”的论文有81.8%为高校所贡献[2]。论文发表情况已成为衡量高校科研实力的重要依据,图书馆作为高校的文献情报中心,每年都会为人事处、科技处等职能部门提供本校论文发表数据,以满足科研评估、课程与教学变革、人才培养考察等需求。暨南大学图书馆虽然每年编制《暨南大学国际论文统计与分析年报》,但已不能满足人事处和科技处等部门对不同年份数据和论文数据不同字段的动态要求,亟需开发既可长期保存全校论文成果,且能适应不同用户需求的规范化、可扩展的科研产出数据共享平台。

1 科研产出元数据及元数据监护

从图书馆学角度看,论文的著录特征,如责任者、机构、文献类型、影响因子等元数据正是评价科研产出的客观依据,故本文称之为“科研产出元数据”。科研产出元数据可以反映研究进展、活跃科研人员、协同创新关系等重要信息,利用好这些信息,有助于摸清科研现状及发展脉络,客观描述成果的真实价值与影响力,促进科学评估体系建立,引导高校科研沿着正确方向发展。

Shaon Arif 等指出,虽然元数据已经被证明足以为数字资源的长期综合处理提供必需的信息保证,但如果不对元数据加以监护,元数据的质量和可信度将会随着时间的推移而衰减[3]。近年我国基于元数据的机构知识库建设呈快速发展趋势,为保存高校学术研究成果,展示高校研究实力作出了探索,但由于系统平台技术所限,元数据应用不能完全符合用户习惯和需求,难以发挥论文元数据的真正价值[4-5]。基于此,我们提出元数据监护服务。元数据监护是为更好地体现元数据对数据本身的描述,应对不同用户对元数据使用需求而开展的管理活动,包括对元数据进行收集、验证、规范化设计和保护。它是一项持续性、系统性的维护工作,目的是使元数据可以为科研评估和科研管理服务,最终实现元数据价值。

2 科研产出元数据监护的可行性

科研产出元数据是图书馆业务最常接触的文献信息之一,已发展多年的数字资源建设使图书馆配置了专门的服务器和存储设备,完全满足元数据监护的硬件条件,而且元数据监护作为数字化图书馆的一部分能够很好地融合在其中。图书馆员也普遍具备良好的相关理论知识和实践经验。在单纯的科研产出数据保存工作已远远无法满足当前科研用户和科研管理工作者需要的情况下,充分发挥图书馆特长和优势,对科研产出元数据进行监护,并构建元数据监护平台,对促进高校科研评估体系的发展有着积极意义。

据笔者业内调查,目前仅知武汉大学、西安电子科技大学、大连医科大学有固定的纸质SCI论文统计年报或相关网页供浏览,并无专门的元数据监护系统。暨南大学图书馆从2001 年起一直坚持开展本校的论文数据统计工作,至今整理论文近万篇,元数据10 余万条,且全部经过标准化处理;这些数据最初以文本格式保存,不足以满足数据检索、统计、分析的需要。为更好地利用科研产出元数据,该馆结合科研人员的需求及科研管理部门的需要,开发出国内首个科研产出元数据监护系统。

3 科研产出元数据监护的必要性

3.1 为高校管理者提供科研产出评估服务

尽管存在有待完善的地方,但论文仍是我国进行科研产出评估最实用、最客观的指标。就高校管理者而言,透明度和清晰度是进行科研产出评估重要的两项要求。由于科学发展既深化又广泛交叉,管理者不可能对所有学科了如指掌,而科研产出不仅数量庞大,而且作者在写作时的姓名、机构、基金、学科等元数据表达纷繁复杂,数据库商本身不具备对其进行标准化的必要知识和能力,这使得管理者在开展与论文相关的统计、申报、考核时困难重重,为保障全面客观,往往反复让科研人员填写多种报表,效率低下,也占用科研人员宝贵时间和精力。图书馆发挥文献信息获取、核实、标引、标准化处理能力强的优势,构建一个元数据监护平台,不仅可以实现所有元数据无时空限制的获取,而且能通过可视化的统计、分类功能满足个性化评估需求,让所有涉及其中的人对评估结果一目了然,从而整理出客观、准确的量化评估报告,使高校管理者在不必深入了解专业的情况下也能对科研成果进行公正、客观的评价,提升工作效率。

3.2 为高校科研人员提供成果展示、交流和发布服务

目前学者的科研产出多通过普通网页或个人网上空间进行展示,交流多通过个人通讯软件进行,但依靠个人或非正规机构网站保持的资料容易流失,而且缺乏权威性和说服力。图书馆恰好可以凭借稳定性好,可信度高的优势,在机构库的基础上构建一个由专人维护的,长期运作的元数据监护平台,提供标准化的元数据并实现检索、统计、分析和发现等高级功能。学者可直接在此平台上实现科研产出成果展示和发布,从客观上促进学术交流。

3.3 强化图书馆工作与科研工作的紧密度

从图书馆业务角度来看,传统图书馆服务模式正不断受到新信息交流技术、交流方式的冲击,高校图书馆在数字资源长期保存领域的研究已经有20 余年,推出元数据监护创新服务,将管理对象从科研产出扩大到科研产出元数据,不仅能摆脱单纯的收藏者角色,成为知识发布、保存、利用和管理的解决方案,还能增强图书馆与科研工作的紧密度,进一步巩固和提升自身在社会、科研环境中的价值,避免被边缘化[6]。

4 系统设计及其实现

4.1 设计思路

科研产出元数据监护系统基于面向对象的跨平台Java 语言实现,可将元数据收集到MySQL数据库,并使用JDBC 等技术通过网页直接展示给用户,无需安装客户端。其开发目的是为元数据的标准化、长期保存、获取和使用提供方便,是集数据的保存,可视化动态展示,科研产出数据评估及科研人员之间、科研人员与系统管理人员之间交流互动的多功能平台,可以满足高校科研评估、课程与教学变革、人才培养考察等需求。

4.2 系统体系结构

系统基于面向对象的跨平台Java 语言实现:展示层使用struts2 框架,充分利用MVC 理念以减少代码耦合,提高可扩展性;数据库选用较灵活高效的MySQL,考虑到本系统数据结构关系的复杂程度比较高,数据库访问层直接使用JDBC 的相关技术来完成查询需求;页面展示整体设计简约,采用标准CSS+DIV对页面进行编码;用户交互板块使用JQuery 客户端技术提升页面友好度,增强用户体验。此外,系统具有权限控制和后台管理功能,权限控制及IP 访问控制通过Struts2 框架的拦截器实现,后台管理功能实现了系统大部分定制功能,增强系统扩展。系统的体系结构如图1 所示。

4.3 系统功能设置

系统包括服务、管理和互动交流三个主要模块,系统功能结构如图2。服务模块的主要功能有浏览、检索、统计分析和提交论文,可供全校所有科研人员和科研管理人员使用,以获得不同需求的科研评估数据。管理模块主要是管理人员进行数据采集、数据审核和问题维护时使用,以确保系统数据实时、有效。互动交流模块主要有用户咨询、馆员答复和用户交流三个主要功能,用户可以选择在线与系统管理人员进行咨询,也可在系统留言板内进行留言,馆员可以针对某个用户的问题进行私密解答,也可以对多名用户提出的类似问题进行集体解释与答疑。

4.3.1 服务模块的主要功能

图1 系统体系结构图

图2 系统功能结构图

(1)浏览。浏览可以根据用户需要通过不同字段浏览论文数据,可按作者、题名、学院、研究领域、来源出版物、来源数据库进行浏览。浏览到的论文数据可以下载全文保存,也可以导出为Excel 表格保存题录格式。系统利用文献内容的相关性为用户提供了一个知识链系统,可以对研究领域相近的作者进行关联。根据知识链系统,在浏览某一作者的论文时,就可以通过可视化图看到该作者与该校其他作者的合作情况(见图3),点击作者可以查看该作者的论文列表,点击作者中间的连线可以查看两个作者的合作论文列表,作者中间的连线越短,代表合作的论文篇数越多。通过知识链系统,既使得相关研究方向的作者建立联系,促进合作,又可使用户阅读这些文献之后寻找到新的研究线索,实现知识发现。

(2)检索。检索功能中设置了两种检索方式,即基本检索和高级检索。基本检索可直接输入题名、作者、刊名进行检索;高级检索则可实现题名、刊名、作者以及摘要内容的逻辑检索。在作者检索字段,支持中文名和英文名各种缩写格式的检索,除此之外,两种检索方式均可对学院、发表年份和收录数据库进行精炼检索。

(3)统计分析。系统支持元数据导出功能,用户可根据需要,通过组合来源数据库、责任者、所在机构、来源刊物、发表时间等限定条件检索元数据,通过用户个性化统计分析,实现科研评估功能。检索到的元数据支持导出为电子格式保存(见图4)。

(4)论文提交。系统支持用户自行提交论文元数据(见图5),作者有新论文发表,即可在系统平台提交,提交后的数据经过管理人员审核,方可参与院系分布、作者发文与分布、论文数量及增长情况、论文语种、文献类型、来源期刊分布等统计分析。

图3 可视化作者关系界面

图4 统计分析界面

4.3.2 管理模块主要功能

(1)数据采集。数据通过RSS 订阅,Endnote等管理软件的运用,辅以人工优化处理采集而得[7],标准化后的元数据除论文数据已有字段外,规范化标注了论文作者的中文名、学院、系所、作者次序、是否第一作者或通讯作者等,并整合了发表论文所在期刊的影响因子和论文分区(见图6)。整理好的元数据导入MySQL数据库,使基于元数据的科研实证评估成为可能。

图5 数据提交界面

图6 元数据展示界面

(2)数据审核。元数据信息通过Struts2 框架展示,管理员可在Web 页面直接对元数据进行审核,论文审核和已审核论文界面可对每一条论文各个元数据进行审核,包括论文的主题字段内容,论文作者对应的中文名和所属院系,论文所属研究领域和所在数据库,论文来源出版物信息、合作机构和基金资助机构的选择与审核(见图7)。

图7 元数据审核界面

(3)问题维护。馆员维护模块设置了管理员登陆页面,只有被授权的管理员才有权限对数据监护系统的数据进行修改和维护。可维护的内容包括论文审核、已审核论文的修改、院系信息管理、作者信息管理、来源数据库管理、期刊信息管理、合作机构管理、资助机构管理、研究领域管理等。

4.3.3 互动交流模块主要功能

系统结合现有的Web 2.0 理念和技术,嵌入可互动科研交流与知识共享平台,该平台基于以个人用户为中心的理念,强调用户参与和成员互动,支持用户间通过发表评论、留言等方式进行沟通与交流,实现研究人员个体与个体之间,个体与群体之间的交流、共享与融合,调动知识与科研成果交互的积极性,促进科研人员科研产出的进程。

4.4 系统实现方法

本系统采用Java 语言开发,其开发环境为Eclipse3.7,JDK1.6。系统后台数据库采用MySQL 5.5,Web 页面展示框架采用Struts2。这里主要说明系统的两个重要功能的实现方法。

4.4.1 元数据采集

数据采集是通过数据库的RSS 订阅功能,使用Java 的Eclipse 生成。由于数据库的Web服务使用WSDL 文件来描述它所提供的服务,在Eclipse 中可以选择新建一个Web Service Client,然后指定WSDL 的URL,生成所需客户端。管理员通过设置检索策略对数据库进行检索,数据库的Web 服务器返回记录之后,就可以对记录进行解析,并存储到本地数据库。关键代码如下:

4.4.2 科研评估功能的实现

科研评估功能是基于元数据的规范与监护系统的强大兼容能力,通过信息技术的标准化与排序功能,图表生成与可视化的实现,结合数理统计等数学方法,图文并茂地展示科研产出的评估数据。实现评估功能的主要代码如下:

用户还可按需筛选出学科带头人、学科专业、核心载文刊物和某学科科研发展轨迹等进行评估。通过浏览某作者的文献,找出其与该校其他老师的合作关系。其在系统中实现的关键代码如下:

5 经验与体会

5.1 建立管理与共享机制是系统运行的保障

从暨南大学的实践来看,每个职能部门都有自己简单的数据管理方式,原始数据多由图书馆提供。由于科研人员发表论文时地址字段著录格式的不同,仅仅依靠图书馆检索到的数据是不准确的,需要全校科研人员的参与,数据的获得应以图书馆采集为主,科研人员提交为辅。这就需要将科研产出元数据的管理提升到学校层面进行整体规划和设计,明确数据管理流程,落实各相关部门的职责,以保障数据的准确以及数据管理的正常运行和可持续发展。

5.2 用户需求是系统功能持续改进与完善的动力

数据应用的功能需求会在一定程度上影响到平台开发工具的选择,在部署本地数据平台时,应考虑数据应用需求、经费、技术力量等选择合适的开发方式和基础软件搭建应用平台,可以说用户需求的变化是系统功能持续改进和完善的动力。暨南大学社科处、科技处等职能部门基于学校科研评估的需要,对系统功能的改进提出了很多宝贵意见,比如将数据以不同年份、不同数据库来源进行报表式呈现,按照学科进行科研产出数据的统计等。科研人员根据职聘考核、项目申报的需要提出了改进建议,比如同一篇论文中每一位作者的作者顺序的显示,同一个刊物不同年份的影响因子和刊物级别如何按照当年的具体情况呈现等。通过走访调查发现,科研产出元数据监护系统逐渐引起科研人员越来越多的关注,也正是由于科研人员和科研管理部门的关注,促进了系统的日益完善。

5.3 服务能力的提升是系统有效运行的关键

科研产出元数据监护系统是集数据采集、数据加工、数据挖掘和分析等多层次的服务平台,加之用户需求的不断变化,系统功能必将持续改进,这就需要图书馆员不断提升自己的服务能力和水平。首先,图书馆需要技术部门、咨询部门和服务部门的通力合作,提升图书馆整体服务能力;其次,作为直接与科研人员和科研管理部门沟通的馆员,需要具备较强的沟通能力,除了对科研产出元数据比较熟悉外,还需要对整个服务流程有着清晰的认识;再次,随着计算机技术的不断发展,为适应科研产出元数据服务的新需求,图书馆员需要不断学习先进的计算机技术和数据管理经验,以快速提升服务能力。

6 未来工作

科研产出元数据监护系统上线运行以来,受到学校管理层和学者的一致关注及大力扶持,为学校职能部门和各院系提供了可靠的数据支持。随着科研产出的不断增加以及评估需求的多样化,暨南大学图书馆在下阶段的工作中将强化服务意识,提高馆员元数据监护方面的知识水平,加强与用户的交流,着力向高校管理者和学者进行宣传,积极嵌入到科研探索及科研评估工作中去。元数据监护工作人员应进一步细化工作流程,美化系统界面,创建基于Web2.0 的信息共享社区,构建基于过程的用户元数据管理与增值方案,实现图书馆主导、学校多部门参与、多元共治的运作模式。

[1] 张晓林.开放元数据机制:理念与原则[J].中国图书馆学报,2003(3):8- 13.

[2] 中国国际科技论文统计结果[EB/OL].[2014- 08- 10].http://www.istic.ac.cn/tabid/640/default.aspx.

[3] Shaon A,Woolf A.An OAISbased approach to effective long- term digital metadata curation[J]. Computer and Information Science,2008,1(2):2- 16.

[4] 李国俊,王瑜,王李梅,等.基于元数据的高校机构知识库建设研究——以北京科技大学机构知识库为例[J].大学图书馆学报,2012(4):55- 60.

[5] 林爱群.机构知识库元数据的自动生成与评估研究[J].图书馆学研究,2009(7):21- 23,10.

[6] Corrall S,Kennan M A,Afzal W. Bibliometrics and research data management services:emerging trends in library support for research[J].Library Trends,2013,61(3):636- 674.

[7] 张春晓.基于Web of Knowledge Web 服务的机构论文统计分析系统[J].现代情报,2013(1):98- 102.

猜你喜欢
科研人员监护检索
科技部等五部门联合发文开展减轻青年科研人员负担专项行动
科研人员揭示油桃果实表皮不长毛的奥秘
科研人员破译黑猪肉特征风味物质
护娃成长尽责监护 有法相伴安全为重
儿童监护机器人设计
瑞典专利数据库的检索技巧
一种基于Python的音乐检索方法的研究
我国成年监护制度之探讨与展望
企业科研人员激励问题及对策研究
专利检索中“语义”的表现