基于ESI的学科排名预测方法

2018-03-21 01:11,,
中华医学图书情报杂志 2018年4期
关键词:老化数量论文

,,

随着“双一流”建设总体方案的提出,高校的学科发展成为图书馆服务的重中之重。加强世界一流大学和一流学科的建设是针对高等教育和科研发展作出的重大战略决策,为提升中国高等教育综合实力和国际竞争力奠定了长远的政策基础。

在评价一流大学和一流学科时,存在很多评价体系和评价方法。其中,基本科学指标数据库(Essential Science Indicators,ESI)[1]是由世界著名的学术信息出版机构美国科学情报研究所(ISI)于2001年推出的衡量科学研究绩效、跟踪科学发展趋势的基本分析评价工具[2],基于ISI的科学引文数据库(SCI)和Social Science Citation Index(SSCI)收录了全球12 000多种学术期刊的1 000多万条文献记录建立的计量分析数据库[3],已成为当今世界范围内评价高校、学术机构、国家等国际学术水平及影响力的重要评价指标工具之一。近年来,由于国家和地区对科研的重视,科研投入及人才引进的力度增大,我国整体的科研水平有了显著提高,我国入围ESI前1%的学科数量不断增加和学科排名也不断提升。

助力高校学科发展是图书馆服务的重中之重,因此国内关于ESI数据库的研究也逐渐增多。主要分为两类:一类是利用ESI数据对学科结构[4]和发展态势[5-6]以及高校之间、国家之间学科的科研能力进行对比研究[7],另一类是基于ESI的排名预测(如董政娥通过引入学科比重指标对进入前1%的学科进行预测[8],秦萍等运用灰色理论对南京航空航天大学的潜力学科进行了预测[9],管翠中、范爱红等以清华大学为例对学术机构入围ESI前1%学科的时间进行预测[10])。通过排名预测可以了解该机构的发展趋势,对学术机构科学制定发展战略和研究计划、合理调配学科资源配置、有计划地引进人才等方面具有重要的指导意义和参考价值。

本文以ESI中化学学科为研究对象,对各机构发表的论文数量和文章被引频次分别构建了动力学模型,并对其进行拟合,再用拟合结果计算各个机构的总被引频次,得到ESI排名预测。通过预测得到化学学科以后各个时间点的ESI排名以及单个科研机构的排名变化。

1 研究方法及模型的建立

1.1 数据采集及研究方法

本文通过InCites[11]数据库检索ESI中化学学科发表的论文数量和文章被引频次,将得到的数据按年限分类,数据采集时间为2018年1月29日。

本文的预测方法是根据各个机构以往发表文章的数量和平均被引频次的拟合结果,计算下一个时间点各个机构的论文数量和单篇论文的平均被引频次以及总被引频次,用总被引频次作为下一个时间点的ESI排名预测。

设t年总被引频次为Q(t),文章发表数量为P(t),平均被引频次为S(t)。其中t表示年份。其关系可以用如下公式表示:

Q(t)=P(t)S(t)

1.2 发表文章数量模型

分别对P(t)和S(t)建立动力学模型[12]。对单个科研机构发表文章的数量,可以通过一个简单的动力学模型来描述。文章发表数量的增加量与当前机构的科研基础成正比,比例系数可以用A(t)表示。科研基础包括科研经验、人员经验、可使用的仪器、对学科理解的深度等,因此文章数量的动力学方程为:

由于单个机构中各种经验和科研实力的变化是一个相对缓慢的过程,所以A(t)可以近似为一个常数,那么方程就可以简化为:

解上面的方程可以得到一个简单的e指数方程

P(t)=aebt+c

(1)

其中a,b,c是拟合参数,科研机构不同对应的参数也不同。

1.3 论文被引频次模型

对于论文被引频次的预测,也可仿照发文数量的模型建立动力学方程。由于论文的被引存在被引频次随时间增加(在发表之后被认可度逐渐增加)和老化(被引频次逐年减小的过程)的问题[13],因此单篇论文平均被引频次S(t)分成两部分:一部分是随时间增加的过程,用S1(t)表示;另一部分是随时间衰减的过程,用S2(t)表示。用方程来表示单篇平均被引频次:

S(t)=S1(t)+S2(t)

对被引频次增加和老化部分分别建立随时间变化的动力学模型。由于被引频次和文章的被认可程度有关,可以近似认为是成正比的;增加部分S1(t)会以一定速率向老化部分S2(t)转移,因此对增加部分和老化部分建立动力学模型如下:

式中,k1是增加部分对被引频次增量的比例系数,k2是老化部分对被引频次增量的比例系数,k3是由增加部分转移到老化部分的速率。由于被引过程的变化也是一个比较缓慢的过程,因此忽略比例系数与时间的关系,认为它们是常数。解上面微分方程组可得到S1(t)和S2(t)的解析式:

S2(t)=C1e(k1-k3)t+C2e-k2t

式中C1和C2是常数,是S1(t)和S2(t)之间的约束关系。

所以论文的单篇平均被引频次为:

S(t) =S1(t)+S2(t)

从上面公式中可以看出,被引频次和时间的关系是两个e指数的关系,其它位置都是常数。因此可以把方程中的常数简化,方程就变成如下形式:

S(t)=AeBt+CeDt

(2)

从InCites数据库得到的数据是只有最后一次更新时间的发表论文的数量和被引频次,这对应着文献老化中的共时老化数据,所以不能直接得到论文发表之后的引用量随时间的变化,即历时老化数据。王宏鑫等研究表明,共时老化数据和历时老化数据都能反映文献老化的真实过程[14],因此采用共时老化数据反映文献老化的过程。

2 排名预测

ESI排名是根据各学术机构发表论文的总被引频次排名的,因此学科排名预测是总被引频次的预测。总被引频次的预测可以从发表文章数量的预测和文章平均被引频次的预测两方面考虑。以化学学科为例,从发表文章数量和被引频次两个方面预测ESI中化学学科的排名变化。

2.1 发表文章数量的拟合

首先从InCites下载1981-2017年各机构发表化学学科文章的数量,并用公式(1)拟合,拟合结果如图1所示。

图1(a)中的横轴代表论文发表的年代,纵轴代表各个机构论文发表的数量。点代表排名前5名的机构各年发表文章的数量,实线是用公式拟合后的结果,不同颜色代表不同的单位。从图中可以看出各个单位的拟合效果都很好。

图1(b)和(c)分别给出机构排名在101~105和401~405的统计数据和拟合数据,可以看出各个阶段的拟合结果都很合理。

为了反映整体的拟合效果,我们采用了数学中常用的相关性分析方法对拟合结果进行评价,即计算图中点代表的数据和实线代表的数据的相关系数。相关系数的结果范围在0~1之间,越接近1说明拟合效果越好。结合所有机构的拟合结果计算它们的相关系数,得到相关系数的统计分布如图1(d)所示。

从图中可以看出,相关系数的结果大部分都大于0.9,说明拟合效果很好,因此可以用此方法预测学术机构的文章发表量。但也有很少部分数据拟合效果很差,这可能是由于一些机构人员变动或仪器使用经验不稳定等因素致使文章数量的变化不稳定,但总体拟合效果较好,因此可以用该方法预测整体的排名。

2.2 被引频次的拟合

对于早期文献,由于互联网未普及,文献被引频次记录不是很全面,它的动力学过程与互联网普及之后的趋势不同,因此我们选择近15年的被引数据拟合动力学模型参数。

首先从InCites数据库下载2003-2017年各科研机构化学学科发文被引频次的数据,并用公式(2)拟合,拟合结果如图2所示。

图2(a)中横轴代表文章发表的年代与2018年的距离,纵轴代表文章平均被引频次,“点”代表排名前5名的机构各年发文的平均被引频次,实线是用公式(2)拟合后的结果,不同颜色代表排名不同的机构。从图中可以看出,各个机构的平均被引频次拟合效果都比较好。

图2(b)和(c)分别给出了机构排名在101~105和401~405的被引频次及拟合结果,可以看出各个阶段的拟合结果都比较合理。为了反映整体的拟合效果,用相关系数来评价拟合结果。

图2(d)给出了拟合结果的相关系数的分布,几乎所有的相关系数都超过了0.8,可见数据拟合结果是比较合理的。

图1 各机构化学学科在1981-2017年的发文数量及拟合结果

图2 各机构化学学科在1981-2017年平均被引频次及拟合结果

2.3 排名预测

排名预测主要根据拟合的发文数量和单篇平均被引频次,计算今后10年各个科研机构排名随时间的变化情况。由于ESI排名是每2个月更新1次,因此本文预测时也以2个月为单位预测,预测排名的结果如图3所示。

图3给出了各个阶段各个机构的排名变化,其中图3(a)中给出了排名前几位的排名变化。

本文选择了几个变化趋势不同的排名变化,从图3(a)可以看出前5名的位置变化不大,第5名在预测的10年间排名都无变化(总被引频次虽然增加,但和其他机构之间的相对排名没有变化);排名第6的机构在预测的后几年排名有明显下降;排名第15位的机构,在预测的10年间开始稳步增加,到最大值后又缓慢下降。

图3(b)中给出了排名在几十位的科研机构的排名变化,可以看出大部分排名都保持在一个比较稳定的状态,但也有变化比较明显的,如排名第52位的机构在预测时间内一直处于下降的过程。

图3(c)和(d)是排名100名和500名左右的机构排名变化,可见每个阶段都有一定的机构有排名的上升和下降。所有机构的被引频次都在增加,排名的变化主要是由于被引频次增速快慢不同而引起的。其中第4名的增速最快,主要是因为其现有的文章发表速度和被引频次增加速度在预测时间段内累积引起的排名变化比较大。

图3预测的排名随时间的变化

为了便于观察整体排名效果,选择排名前3000的科研机构作为研究对象,对每个科研机构取预测10年间排名最高和最低的排名为可能的上升和下降区间,结果如图4所示。

图4中横坐标代表2017年底的机构排名,纵轴代表以后预测结果中偏离当前排名的量,红色部分代表该科研机构可能的上升量,绿色代表科研机构可能的下降量。

从图4可以看出,随着排名序号增加,排名的区间上限值起伏越大,主要是因为现在的预测方法是用当前阶段的速度来预测以后的发文数量和被引频次,所以当前有一定上升趋势的机构,在今后的预测中排名就会有比较大的上升,此处并未考虑到它可能到达的饱和上限。

同样,如果当前机构的发文数量和被引频次增加速度较慢,那么随着预测时间的增加,它会被排名靠后的机构超越,就会出现下降。

排名靠前的单位,由于其当前的被引频次很高,排名靠后的机构在短时间内即使增速很快也很难超越特别靠前的机构。因此用ESI排名评估机构的科研水平是一个比较合适的参数,因为它很难从短时间内通过恶意引用来提高自己的排名。由于其稳定性,对于新发展的机构或者刚引进新的学科带头人的机构,很难从ESI指数上看到明显的进步。

通过预测各个机构的排名,可以得到某机构在当前发展的趋势下未来的发展状况,为政策的制定提供指引和方向。

图4 各科研机构预测排名变化范围

图5显示了被引频次和排名序号的关系。最低的那条线是当前排名的结果,其他各年的结果是预测结果,可以看出各年的预测结果和2017年统计结果趋势一致,表明ESI是一个稳定合理的系统。其分布基本保持不变,用其评价学科排名比较科学,同时也证实了我们建立的模型是十分合理的,没有使系统偏离稳态。

图5 各年被引频次的预测结果

3 误差分析

以上预测主要是通过建立发文数量和被引频次的变化动力学模型,然后用拟合的方式得到各个机构的排名变化预测。任何数学模型都会有系统误差(在模型中假设变化量是一个常数,并不随时间变化,主要指模型考虑不到的部分)或者由于简化带来的误差。这种简化只是在系统变化比较缓慢时才成立,本文假设科研系统的积累变化相对比较缓慢。虽然常数中包括了很多因素,这些因素都可能有一定的随机因素,其变化不一定是对科研有利或者不利,但这些随机量的平均值一般会保持在一个稳定值,尤其是对于一些科研积累很多年的单位,新增的累积变化都比较缓慢。

机构内部的快速巨大变化(如学科带头人的引进和调离、与其他学术机构之间的合作、引入发文奖励政策等会给预测造成误差),都会对论文发表数量和被引频次有影响,而且会使机构的论文数量和被引频次的规律与之前有较大的差别,会使本方法预测的误差增大。

4 结语

ESI从各个角度对国家、地区的学科发展水平及学术影响力进行了全面的衡量,按总被引频次的高低给出每个时期入围世界前1%的学术机构的排名,对于高校制定学科发展政策,衡量与世界一流学科的差距具有重要意义。仅密切关注ESI的动态排名是不够的,还需要深入分析数据内部潜在的价值。本文以化学学科为例,通过建立模型并拟合数据,给出今后某个时间点各个机构的排名变化和某科研机构ESI排名随时间的变化。此模型具有一定的普适性,可以广泛用于其他学科或者科研机构的排名及评价。通过排名预测可以发现一些更有潜力的科研单位,了解某个学术机构的某个学科在今后一段时间内与世界一流学科的差距,以便更合理地制定发展政策及调配学科资源。 但其有效性还有待于后续的实证研究,今后可以利用排名数据对模型做进一步的优化,以适应对ESI的排名预测。另外,可以在模型中加入政策决策和基金支持等影响因素,为政策决策和资源分配提供定量的预期结果。也可以将此模型应用于其他学科,对比不同学科的差异,对学科发展给出理性的建议。对于拟合数据,由于使用共时文献被引数据代替历时数据,可能会带来一定的误差。今后的工作中需定期收集历时数据,对研究模型给予验证和补充。

猜你喜欢
老化数量论文
芳芳猜童话书的数量
统一数量再比较
节能技术在开关电源老化测试中的应用
头发的数量
杜绝初春老化肌
下期论文摘要预登
下期论文摘要预登
下期论文摘要预登
HTPB热固PBX老化过程中的体积收缩
2013年5—12月最佳论文