基于机构知识库的高校科研成果数据组织与管理

2022-07-07 05:06
图书馆学刊 2022年5期
关键词:知识库科研成果成果

李 卉

(上海电力大学图书馆,上海 201306)

近年来,科学技术呈现信息化、网络化的发展趋势。国家对科技创新的发展越来越重视,并投入大量的经费,我国科研成果的数量增长迅速,科研成果数据已经成为重要的战略资源。高校是重要的科研基地,每年都会产生大量的科研成果。据统计,全国发表的科技论文主要集中在高校,占全国的66.0%[1]。在高校教学和科研管理工作中,无论是职称评审、科研奖励、项目申报等,都需要填报科研成果数据。科研成果的产出是衡量高校科研创新能力的重要指标之一,也是学校综合实力的重要体现。及时、准确地对科研成果数据进行统计分析,对于掌握学校科研发展态势、制定发展规划、推动科研工作发展有着重要意义[2]。随着信息技术的快速发展,科研成果的管理逐步脱离手工管理,转而依托各类系统平台来实现,这为高校的科研成果管理工作带来了极大的便利性,规范了高校科研成果的统一管理,也提高了科研成果管理各环节的效率。科研成果数据的价值愈发受到人们重视的同时,多元、全面、精细的科研评价和统计工作也对科研成果数据提出了更高的要求,为科研成果的管理工作带来了更大的难度。

1 高校科研成果数据的特点

1.1 高校科研成果数据的类型分析

科研活动中会产生很多信息,包括项目信息(如申报书、审批书、中期报告、结项报告等)、论文、著作、演示文稿、研究报告、实验数据、软件代码、多媒体资料,以及用数字形式表达的想法、观点、经验及诀窍的总结等各种科研成果和其他类型信息资源。另外,一些和科研有关的活动,如学术会议、学术报告、知识比赛、成果评选、学术获奖等,也是高校科研管理需要的重要信息。通常,高校机构知识库采集的成果类型除了正式出版和非正式出版/未出版的文献以外,一些科研活动信息也经常被收录其中,作为一类成果类型。

1.2 高校科研成果数据的来源

在机构知识库中,正式出版的成果主要来自外部数据库,一般通过特定的接口等技术手段自动获取入库,少量由作者提交;非正式出版物和科研活动类成果则必须由作者提交。

科研成果管理和服务过程中除了科研成果本身外,还涉及科研人员、院系部门与研究机构信息,这些信息主要来自以下几个业务系统:①人事信息系统,提供人员在岗及历史信息;②科研项目系统,提供科研项目申请、立项信息;③财务信息,提供项目相关的经费入账与支出信息;④研究生信息管理系统,提供研究生、导师等培养相关信息,其他信息系统视需列入。

职能部门的业务系统信息与机构知识库的科研成果信息关联后,可适用于各类场景,满足不同部门、各种层次的信息需求。这些数据的互通共享也十分重要。因此,科研成果数据的来源主要包括:①科研人员和研究团队。主要是指教师和学生,他们既是科研成果的生产者,也是科研成果数据的用户。②职能部门。职能部门负责管理与维护科研成果相关的信息,是科研成果数据的主要用户,主要部门有图书馆、科研管理部门、组织人事部门、研究生院等。

1.3 高校科研成果数据的用户需求

高校师生和科研人员对科研成果数据需求包括以下几个方面:

(1)科研成果数据的存取。对于学生,科研成果关乎学生的学业评价和奖励;科研成果也关乎研究生院等管理部门对学生培养质量的评价。对于教师,在聘期考核、年度考核、职称评审等各类评价和考核时需要科研成果信息。他们对成果数据的复用性和质量有较高的要求,希望一次存取,多次使用,避免成果数据的重复录入。

(2)科研成果评价数据的获取。在众多应用场景中,用户所需的数据往往不仅是科研成果本身,还包括成果评价数据。如科研人员年度绩效考核中,经常需要统计个人发表成果的期刊分区信息、核心期刊表收录信息、国内外数据库的收录信息等。这些评价数据是进行水平与质量评估的常用指标,且要求准确性高,更新及时。

(3)了解科研动态。科研人员既有了解自己科研成果动态的需求,如论文的被下载引用次数、被收录情况等,也有了解校内科研进展的需求。如自己关注的领域内是否有新的科研成果,或是跟踪相关人员科研进展等,这一过程可以促进学者之间的学术交流,从而提高个人学术影响力。

院系和职能部门对科研成果数据保持着一种经常的、持续性的强烈需求。一般情况下,学院需定期统计员工的科研成果、考核其科研表现。在接受学校的考核与评价、科研项目申报、奖项申请、学科发展与规划等活动时,学院也需要科研成果数据的支持。如院系管理员需要对所有教师和学生的科研成果进行统计汇总和分析工作,并据此进行绩效奖励,制定学科发展规划等。职能部门对科研成果数据的需求也是多样化的,他们的信息需求面更广,许多运用场景既独立于学院等二级部门,又需要二级部门和师生的参与。如学校发展规划部门需要进行全校高水平人才评价、全校KPI考核等,人事部门在人才引进、职工考核、职称评定时需要对科研人员的科研成果进行统计分析和评价等。

综上所述,高校科研成果数据来自于不同的论文数据库、高校内部不同的信息管理系统、不同院系或部门、师生或研究人员等多源的渠道,在存储方式、载体、格式、形式方面也各不相同。如何处理这些复杂的多源异构数据,满足用户提出的便捷、安全、相互关联、更新及时、准确性高等要求,解决各部门之间的信息孤岛,对科研成果进行有效组织和深度挖掘,是高校科研成果数据组织和管理中需要重点关注的问题。

2 高校科研成果数据组织和管理的要求

机构知识库是高校科研成果数据组织的重要载体,在全球范围内受到广泛关注,各大高校和研究机构纷纷建立起自己的机构知识库。机构知识库不仅能够对科研成果数据进行存储和管理,而且能够对科研成果数据进行深入挖掘和分析。依托于机构知识库实现高校科研数据的组织和利用,是目前较为高效的方式。面对当前高校机构知识库存在的短板和高校科研成果数据用户的需求,保证高校科研成果数据的质量尤为重要。在实践中,高校科研数据知识组织过程中必须确保科研成果元数据的全面性和准确性、科研成果数据的揭示深度和关联广度、科研成果评价指标的匹配,才能提高机构知识库的服务能力。

2.1 科研成果元数据的全面性

科研成果元数据的全面性是指成果的类型全、成果数量全、元数据信息全。

(1)科研成果类型全。机构知识库应该根据机构的需求设定收集的成果类型。目前,国内机构知识库收集的成果类型以正式出版的成果为主,非正式出版的成果为辅。如大连理工大学机构知识库的成果类型主要包括期刊论文、学位论文、会议论文、专利、科研项目、著作、获奖成果、标准、报纸、软件著作权等[3]。另外,中国科学院还收录了研究报告和演示报告[4]。从科研管理的角度来看,一个成熟的高校机构知识库,应该包含教师和学生的智力成果以及机构自身活动和持续进行的知识生产活动的记录[5],不仅要包括正式或非正式出版的成果,还要收集科研成果相关活动,如参赛、获奖等。这就要求机构知识库不仅要支持常见资源类型的定义、抓取和提交,如公开发表和出版的期刊论文、会议论文、学位论文、图书、专利等,还能够根据机构的需要,自定义元数据类型,并支持提交或自动获取功能。

(2)科研成果数量全。属于本机构的成果要做到应收尽收。如中文期刊论文的采集,可从中国知网、万方数据和维普中文科技期刊等主要学术数据库中获取;对于同一个数据库中的成果,应编制合理的检索式保证查全率;而一个友好的成果提交页面,可供作者自行补充遗漏的论文。

(3)元数据信息全。成果元数据要尽量完整。自动采集的成果元数据的完整性依赖于来源数据库的元数据开放程度以及标注信息的详细程度。当一项成果有多个来源数据库时,应能够优先选择信息更全面的数据来源,再根据不同来源的数据补足缺失信息,形成一个完整的成果元数据记录;手工提交的成果要求对必备字段应填尽填,利用技术手段对提交者进行引导与制约,保证所提交的信息准确完整。

2.2 科研成果元数据的准确性

科研成果元数据的准确性主要包括成果唯一性、成果产权归属标注的准确性和本机构成果的去“伪”三方面。成果唯一性是开展科研管理与评估的基本保证。机构知识库常常需要从不同的来源库中抓取成果,而来源库收录范围的交叉重合会导致部分成果被不同数据库同时收录。机构知识库的过滤与去重机制是保证唯一性的主要环节,需要在这一环节不断完善,尽量减少重复。但程序性的去重设置并不能完全保证成果重复率为零,这时就需要通过人工干预加以保证。科研成果产权归属标注必须准确。机构知识库中,成果的原始署名作者与原始署名单位应形成一一对应关系,以方便作者单位的区分;机构成果应该可以根据原始署名作者被认领或指认给研究人员;机构成果的原始署名单位应被正确识别并与现有机构的二级单位关联。本机构成果的去“伪”指由于检索策略的限制,来源数据库成果信息著录的不完整甚至错误,以及机构名称拼写等原因,机构知识库中难免会混入一些其他机构的成果。这些成果成为“伪”成果,需要加以剔除。机构知识库应该提供相应的功能帮助消除这种“伪”成果。

2.3 科研成果属性的揭示深度

传统的机构知识库旨在实现学术成果的存储和传播,因此对成果属性的揭示要求并不高,使用DC等元数据标准基本上已经足够描述学术成果的特征。但是科研管理要实现人员的考核和对科研成果的评价统计等多项功能,这就对成果属性的揭示程度提出了更高的要求,机构知识库中的成果属性应得到全面、更深层次的揭示。例如:①在对院系、实验室等二级部门学术产出进行统计分析时,需要根据作者的二级部门数据,来判断成果的二级部门归属。这就要求机构知识库在标注成果的二级部门归属时,以原始署名单位为主要依据,避免因作者部门与署名单位中的部门不同而造成混乱与错误。②国际合作已经成为高校学科发展的一种重要方式,也是上级部门考察学校科研能力的一个指标。不少机构知识库并未对署名单位中的国别信息作标注,因此无法方便统计国际合作论文。③产业合作、省内外合作则需要对署名机构的属地、行业属性进行区分。④在考察科研绩效时,投入产出比是一个重要角度,而作为投入的基金论文,其基金信息也需要进一步分析与著录,以便统计。以上例子说明,科研管理的需求越来越精细,需要对成果的重要属性进行深入揭示才能满足服务要求,具备服务能力。

2.4 科研成果数据的关联广度

在进行高校科研成果数据组织时,一定要注意机构知识库是一个独立运行的系统,要发挥其在科研管理中的作用,充分挖掘科研成果数据的价值,机构知识库就不能完全独立,应与校内的其他业务系统进行有序关联与互动,消除信息孤岛。例如,人事部门要进行人才考核,确定考核名单后,可通过接口机构知识库获取相关人员认领的科研成果数据后使用;机构知识库的用户信息数据库应与学校的人事信息数据数据库同步,机构设置信息也应能定期更新,才能正确匹配人员状态、职称、所属部门等,为每项科研成果的部门归属提供准确的信息。机构知识库与业务系统的关联应是双向的,这种双向的联动,能创造丰富的数据关联视图,满足复杂的应用场景。

2.5 科研成果数据的评价指标匹配

评价指标的配置是机构知识库服务科研管理的基础,是科研成果、人才评估等应用中进行统计的重要维度。应在机构知识库中配置针对成果的评价指标和针对出版物、出版社的评价指标。针对论文的评价指标包括评价数据库的收录信息、论文转载信息、引用文献等;针对期刊的评价指标包括影响因子、分区、核心期刊等信息;针对出版社的评价指标包括著名出版社、核心出版社等信息。对成果进行指标标注时,应准确、完整;评价指标字典、引文信息应定期更新。

3 高校科研成果数据的组织与管理方案

通过规划基于机构知识库的科研成果数据组织与管理的流程,从科研成果数据的智能采集、科研成果数据的清洗、科研成果数据属性深度揭示和科研成果数据的关联与共享4个方面,详细阐述高校科研成果数据组织与管理的方案。

3.1 科研成果数据的智能采集

科研成果原始采集数据的完整准确是保证整个机构知识库成果数据建设质量的基础,也是高校科研成果知识组织的第一环节。根据科研成果数据的来源,将科研成果数据的收集方式分为3类:自动获取、作者提交和后台导入。

(1)自动获取科研成果数据。自动获取是指机构知识库系统根据设定的搜索策略,定期到特定数据源抓取机构成果,这是科研成果采集的最主要方式。自动获取的科研成果类型主要是期刊论文、会议论文、学位论文、专利文献等正式出版物。在获取文献前,需事先配置抓取策略,通过网络爬虫或数据库的接口等方式从来源数据库获取成果。在自动获取的过程中,要注意以下几个方面:①科研成果的全面性。检查本机构的成果是否收集全面。从单库中获取科研成果时,是否有遗漏。同一类科研成果是否将主要数据库都纳入采集范围,如中文期刊论文主要分布在中国知网、万方数据和维普中文期刊数据库,这3个数据库都有其独家期刊,只有将三库都纳入采集范围才能保证数据的全面性。②科研成果元数据信息获取是否完整。当一项成果有多个来源数据库时,应能优先选择信息更全面的数据来源,从不同来源补足缺失信息,形成一个完整的、不重复的成果元数据记录。③成果获取周期。系统应可设定自动抓取成果的周期,尽量少进行人工干预。由于各数据库、期刊的更新周期有所不同,机构知识库需要根据来源数据库的更新周期和机构的工作需要设定周期,这一周期既要保证及时获取到最新的科研成果数据,又不能给图书馆带来沉重的工作负担。④成果是否抓取准确。误爬率也是测试机构知识库系统的一个重要指标。需要定期导出成果,统计误爬率,分析产生的原因并寻求解决办法。检查误爬率的另一办法是人工手段来操作。一些有入藏号的数据库,通过人工检索获取特定年限的本机构成果,与机构知识库中的成果入藏号进行比对,补充漏抓记录。

(2)作者提交科研成果数据是机构知识库收集成果的重要手段。对于系统可以自动获取的科研成果类型,作者提交的科研成果数据是一个重要补充,可以解决来源数据库未收录的和抓取遗漏的成果。对于系统无法自动获取的成果,只能通过作者提交的方式收集,如图书、研究报告、艺术作品、音视频作品等。

从技术层面看,要保证元数据的完整与准确性,必须有人性化的提交界面,对必备字段作出技术上的要求和限制,简明易理解的提交说明、清晰的提交流程等。从政策层面来看,机构成员对提交个人科研成果数据的积极性不高,需要相应的成果存缴政策和激励政策加以约束与保证。最重要的是学校层面对提交科研成果数据的政策性要求,或考核要求,如果能从政策上规定将机构知识库作为考核成果数据源,作者提交的积极性才能得到保证。

(3)从后台批量或单篇导入科研成果数据是补充科研成果数据的一个重要手段,一般由系统管理员操作。这些数据的导入视需要进行,如补充遗漏数据,批量上传无法抓取的历史数据等。

3.2 科研成果数据的清洗

科研成果数据清洗主要是开展去重和去“伪”科研成果数据记录的过程。去重是为了保持科研成果数据的唯一性。去“伪”目的是清除误爬数据和用户提交的非本机构数据。

(1)科研成果数据去重。多个来源必然会带来重复,虽然各数据库收录的期刊种类、数量均有所不同,但是会存在一定程度上的交叉。另外,即使是同一个数据库中也有可能出现重复数据记录的情况,同时也有可能出现成果被多次收录,或是一稿多投等现象。再加上各数据库的元数据标准和格式、数据质量均有所差别,因此,需要对不同来源的数据进行去重和整合。数据去重包括单库去重和跨库去重两种情况。

单库来源的记录产生重复的原因比较复杂,主要有人工提交科研成果数据和系统抓取科研成果数据造成的重复,有些数据库对同一个成果在不同阶段发布的内容不同、系统将更正记录、撤回论文当作科研成果抓取等原因。单库去重的办法主要有:完善机构知识库的重复论文识别机制,增加重复论文检索功能、重复提示功能和重复合并功能;增加识别优先发表、网络出版和Inpress、Ear9 lyAccess等论文在正式发表的记录是否为同一篇论文,及时更新记录信息;论文更正记录、撤稿成果等需要区别对待;将DOI、入藏号等代表文献唯一标识码作为去重的重要依据等。

从多个数据库抓取的同一成果,也会造成重复,原因诸如:因同一成果的一些关键字段信息在不同来源中不一致产生重复,如标题、作者、发表期刊、年份等;因收录数据库的语种导致系统无法识别而产生重复。多库去重的办法中DOI代表文献唯一标识码可以作为去重的重要依据,但要注意WebofScience数据库中,有时会议论文会用同一个DOI;通过一些字段的组合作为去重的依据,如,ISSN+年+卷+期+页码,或标题+刊名+作者+年[+卷][+期]+页码等。可以设置几组相同文献的判断标准。

(2)科研成果数据去“伪”。去“伪”是删除那些误爬的或作者提交的非本机构的科研成果。判断依据是作者署名机构。对于系统自动抓取的成果,本应在成果过滤阶段就设立规则予以排除,但因各种原因还是混入库中,如来源数据库机构署名拼写错误;作者提交成果未填署名单位或填写的现单位而非署名单位;署名机构名称与本机构名称相似,通过检索式无法区分,系统过滤失败等。

检查“伪”成果的一个办法是通过人工操作。一些有入藏号的数据库,通过人工检索获取特定年限的本机构成果,与机构知识库中的成果入藏号进行比对,对机构知识库中有而人工检索结果中无的成果进行分析,确认是否为本机构成果。另外,应该将成果提交规定以恰当的形式让提交者知晓,改善成果提交功能,对未填写署名单位的成果不入库。

3.3 科研成果数据属性深度揭示

机构知识库不仅要做到全面、准确地收集机构产出的科研成果,还需要深入揭示科研成果的属性,才能为高校科研成果相关的各项统计和评价提供数据基础。成果属性的深度揭示主要是对比机构知识库的元数据要求进行规则处理,使得数据更为规范,通过对收集到的原始数据的拆分来实现。科研成果数据的元数据处理需要区分的重要属性是署名地址、署名作者、资助基金等。

(1)署名地址相关属性的揭示。署名地址中有不少信息对于科研管理与成果评价有特定的意义,可以根据需要进行揭示。署名地址中的信息包括:机构名称、二级部门名称、所在地(省/州/城市等)、国家,以及地址排序和是否通信单位等,见表1。

表1 署名地址相关的属性

(2)署名作者相关属性的揭示。作者署名相关的信息可用于帮助确认作者的贡献,是成果作者归属的重要判断依据,相关属性见表2。

表2 署名作者相关的属性

(3)资助基金相关属性的揭示。资助基金信息是考察研究团队、机构和作者的研究投入的一项指标,可视需要进行揭示,相关属性见表3。

表3 资助基金相关的属性

(4)评价指标属性的揭示。科研成果评价指标与成果息息相关,机构知识库应建立考核指标字典,通过评价指标与成果的结合,实现对科研决策的支撑。关于论文、专著、报纸等成果的考核指标,如表4所示。

表4 评价指标相关的属性

3.4 科研成果数据的关联与共享

机构知识库需要打破信息孤岛状态,与其他业务部门的数据进行多维度关联,才能发挥其在科研管理、绩效评估、学科建设等方面的作用。如,学校、院系的投入产出评估中,通过项目数据与成果数据关联了解产出绩效;人才引进、国际合作、行业合作、研究生培养、学科建设、科研团队等评估工作,也可通过人与成果的关联产生翔实的数据,支持管理决策和上级主管部门对学校的评估。

科研成果数据的关联与共享一般是通过科研成果共享平台来实现的。科研成果共享平台由两部分构成:

(1)科研成果关联机制或关联功能构件。科研成果关联功能构件是一种底层开发的接口集成,连接机构知识库和众多职能部门的业务子系统,其作用是在底层数据间建立关联,每一个系统中哪些数据可以共享,向谁共享,如何调用,权限控制等技术细节,使业务系统之间的科研成果数据共享成为可能。

(2)应用子系统。这是根据学校、师生、职能部门的应用需求,以满足特定的成果使用目标专门设计的应用模块。其中有常规的应用需求,也有个性化的、突发的需求,这些需求往往有一个共同特点,即涉及的数据信息可能来自不同的部门,呈现方式也不一样,需要建设专门系统/功能模块才能满足。常规的应用子系统有:师生的聘期考核、全校KPI考核、初中级职称评定、人才考核、年度单项奖、团队成果跟踪,院系成果跟踪、ESI学科贡献度、ESI高被引论文、学科发展态势分析、学位论文管理、研究生奖学金评定、高水平论文监测、三大检索论文跟踪统计、教育部统计、市教委成果统计、国际合作成效监测、教师学术主页等。

应用子系统在成果关联功能构件的支持下,调用跨业务系统的数据提供服务。如学者个人主页子系统展示的科研成果情况主要包括其所属部门、科研成果总数、科研成果类型、科研成果收录情况、合作者、论文发表期刊、项目等,这些信息可能来自机构知识库、人事部门业务系统的人事信息库、科技管理部门的项目信息库等。

在实践中,机构知识库建设者与服务提供者首先要了解各部门对成果数据的需求,分析各部门的评估统计中涉及到的成果数据,制定出针对不同要求的个性化数据方案,将各成果数据属性进行关联,形成数据视图,这些视图可以直接导出数据,供图书馆完成职能部门或其他用户委托;或将视图设计成数据接口,供校内业务系统调用;或筛选出常用、可共享数据视图,开发Web查询功能,为全校或特定的用户开放查询服务。

除了机构知识库内部数据关联外,还会经常用到各职能部门的数据,将其与机构知识库的成果数据关联,共同解决一些特定的需求。例如,分析特殊人才的科研产出时,就需要用到人事部门的人事数据。如果要在底层进行关联,一种做法是在人事系统中,调用机构知识库的视图,然后在人事系统进行分析与考核;另一种方式是依托科研成果共享平台的支持,开发特定的应用子系统(如特殊人才科研成果监测系统),开放给有关部门与人员使用。机构知识库与职能部门的业务系统之间的关联是双向的,共享是相互的,只有这样,才能创造一个校内科研成果信息资源建设与利用的良性循环。

4 结语

高校科研成果数据日趋重要,对科研成果数据的组织与管理也在不断完善和发展。机构知识库是实现科学成果数据必不可少的工具。基于机构知识库的科研成果数据的智能采集、科研成果数据的清洗、科研成果数据属性深度揭示和科研成果数据的关联与共享是高校科研成果数据组织和管理的具体实施方案。在笔者的实习和实践过程中,还发现机构知识库重储存与开放获取,科研管理服务意识与功能不足;成果数据的质量无法满足当前学校对科研成果的精细化要求;学校主管部门、师生缺乏对机构知识库的了解,对机构知识库认可度低;师生参与机构知识库建设的积极性不高,成果认领率低等问题有待解决。期望相关研究能够推动实践的发展,促进高校科研成果数据服务与机构知识库的更好融合。

猜你喜欢
知识库科研成果成果
科研成果转化
验收成果
中国科研成果震撼全球
工大成果
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
“健康照明”成果聚焦
审批复杂 科研成果落地难
“三医联动”扩大医改成果
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究