解析QS世界大学排名体系数据搜集和处理过程

2019-02-07 05:34谭瑞欣
新教育时代·教师版 2019年45期
关键词:数据处理方法

谭瑞欣

摘 要:QS世界大学排名是世界上颇负盛名的大学排行榜。QS本文通过对QS官网及其他参考文献的分析,对QS排名数据搜集及处理过程进行了剖析,从此两个维度介绍QS世界大学排名的方法,揭示其运行机制,以期对我国建设科学完善的大学排行和评价体系有所借鉴。

关键词:QS大学排名 数据搜集 数据处理 方法

国际高等教育咨询机构夸夸雷利·西蒙兹公司(Quacquarelli Symonds,以下简称QS)创立的QS世界大学排名在国际颇具影响力,成为众多高校管理者、高等教育研究者的关注重点,也成为学生升学选择的参考之一。但由于QS未将自己如何排名向大众公布,因此涉及QS排名指标数据搜集分析以及处理过程的文章却较少。但此部分仍需要进一步明晰,才可对QS整个排名体系有系统的把握,能够对QS排名有更全面的了解。

一、QS世界大学排名的数据搜集

QS世界大学排名数据主要通过QS自主研发的声誉调查、高校和第三方数据采集以及文献数据库的方式得到。

1.声誉调查

QS世界大学排名机构学术声誉及雇主声誉这两个权重较大的指标数据主要来源于QS雇主评议调查及学术声誉调查数据库,是QS长期以来对同行专家以及毕业生就业雇主跟踪调查所得。

(1)学术声誉调查数据

学术声誉调查数据库的数据主要从学术声誉调查问卷得来。学术声誉调查所选取的受访者来源主要是:① 邀请之前已经接受过大学声誉调查的受访者继续提供意见;② 邀请之前合作过的商业公司,例如世界科技公司(World Scientific);③ 从QS自主开发的学术注册程序Academic Sign-up中提取数据;④ 以前参与过QS大学排名的高校提供的相关学者名单[1]。

确定了受访者后,QS会向其发起学术声誉问卷调查,问卷的构成主要有个人信息,专业领域,国内顶尖机构,国际顶尖机构及附加信息五个模块。

(2)雇主声誉数据调查来源

雇主声誉调查的受访者来源同样包含学术声誉调查中历年受邀者,他们需对其所处领域大学质量地提供最新的见解。除此之外,还有高校提供的雇主名单。同时,QS雇主受访者来源还包括他们在20年的公司运营中建立的全球主要市场的雇主信息库,以及历年的合作伙伴等。

2.高校及第三方数据采集

QS规定参与QS世界大学排名的院校有义务提供有关其师生数量等相关信息,受邀高校填报的数据会被QS上传到其Core系统以作搜集。除高校提供的数据来源外,QS公司还从政府部门,例如各国教育部网站以及国家统计局网站统计信息,以及从网络资源及其他第三方搜集数据。同时,为了防止高校人为操控数据,QS公司还从全球56个国家的139个教育部门、统计部门以及相关网站获取这方面的数据[2]。

3.文献数据:Scopus数据库

QS公司在计算学术科研指标得分中的论文引用率,教师论文发表数以及H指数等指标观测值时,除使用高校提供的师生数以外,还会通过爱思维尔公司的斯高帕斯(Scopus)数据库来获得每个学术机构近五年的论文发表数等相关内容,以此建立自己的统计数

据库。

斯高帕斯(Scopus)是全球最大的文献摘要、引文及索引数据库,具有强大的检索和浏览功能[3]。QS认为其排名体系中学术声誉调查指标占有极高权重具有其自身的价值和意义所在。

二、QS世界大学排名的数据处理

1.数据筛选

QS采取了三个措施处理数据保证样本的有效性:一是搜集最近五年的问卷调查数据以更新数据;二是过滤垃圾数据;三是检测异常数据。在对其他著名的高等教育机构的调查中,QS公司明确指出高校不能让受访者以某种特定的方式来回答问卷。

2.数据加权

QS对每个学科领域的回复都进行如下处理:(1)根据受访者熟悉地区的回复为每个地区总回复量设置权重。(2)根据权重,对国际受访者的回复进行加权计算。(3)对推荐的每一个国内大学的受访者进行加权计算。(4)将国内外回复的数据调查结果进行Z分数转换,以得到一个100分以内的分数。(5)将国内数据和国外数据进行加权汇总。(6)将五个学科领域的加总数据进行开平方根处理。(7)将以上得分按比例转换成百分制。(8)将五个领域的得分加总出最后的声誉调查得分,并进行标准化处理[4]。

3.数据的标准化处理

(1)学术成就标准化处理

在QS世界学科排名中,不同学科间的论文发表和引用数据差异极大。一个学科的大小规模通常决定其学术论文出版或发表的数量。但将学科直接划分到一个学科领域的方法较为武断,被划分被定义的学科越多,在处理数据时就越需要多加考量。

QS世界大学排名将教师论文引用率用作评价一所学校的学术成就的指标之一,将该项指标数据进行标准化处理的目的是为得出“标准统一的引文数”(NTCC,Normalized Total Citation Count)。

NTTC计算公式为:

其中n表示某学科领域标准化前的引用次数,指五个学科领域的引用总数(因五个学科领域中某些文章通常会被归于不同的学科领域,所以引用总数一般比n大),表示某高校指定学科领域的引文数,指的是指定学科领域的权重,指的是指定学科领域经调整过后的权重,指的是现学科领域,它可能是代表艺术与人文();工程与技术();生命科学与医学();自然科学(),以及社会科学及管理()中的其中之一。

指定学科领域的权重的计算公式是:

其中表示某学科领域全球引用总数。而艺术与人文()、社会科学及管理()调整后的权重计算公式为:

工程与技术();

生命科学与医学();自然科学()调整后权重的计算公式为:

表示本国大学学科领域论文数的平均比例。表示当指定国家学科领域的论文数超过了全球平均值时其的最大值(例如南非2015年其艺术与人文学科领域论文数为5400篇超过了全球平均水平3400篇,其为6.04%,此时就为6.04%)[5]。QS将已在学术声誉调查过的五个学术领域的影响力视为相等。自2004年以来,QS便赋予了五大学科领域同等权重。

2015年QS的新学术科研领域指标的计算方法采用了学术调查分析法中广为人接受的方式,并且将之应用到引文数据分析中。

2.最終标准化处理

各项指标数据收集完毕并且确定最终的权重比后,QS开始对数据进行标准化处理。以便在计算各大学排名总分时能够公平地赋予各项数据权重并进行加总。2007年起,QS采用了更为复杂且科学度较高的数据标准化处理方式,即使用分数。得出分数后,该指标的正态分布位置即可被画出,从而得到每个大学的指标得分,分数最终在100以内进行分布,之后便可与其他指标进行合并计算。

猜你喜欢
数据处理方法
认知诊断缺失数据处理方法的比较:零替换、多重插补与极大似然估计法*
ILWT-EEMD数据处理的ELM滚动轴承故障诊断
学习方法
可能是方法不对
用对方法才能瘦
MATLAB在化学工程与工艺实验数据处理中的应用
四大方法 教你不再“坐以待病”!
赚钱方法
捕鱼
Matlab在密立根油滴实验数据处理中的应用