如何利用大数据进行选题策划

2016-06-22 23:20陈红田慎鹏
出版参考 2016年6期
关键词:中国科学院选题大气

陈红++田慎鹏

随着科学技术的发展,全球的数据量呈爆炸式增长,大数据的概念也应运而生。本文利用目前全球最大的摘要和引文数据库Scopus,对2010-2014年5年内大气科学专业领域的论文发表情况、学科分布、研究重点及方向、主要研究机构和研究人员进行分析,分析如何利用大数据进行选题策划,以期对其他学科专业图书的选题策划提供一定的参考。

随着人类的进步、技术的发展,全球各类数据呈现爆发式的增长,大数据(Big Data)的概念也应运而生。目前对大数据的概念尚无权威论述,但较为统一的认识是,大数据不仅是对信息时代海量数据的数量概括,更包含了基于社会应用的总体的、所有的数据收集、整理、分析等技术的延伸。

自从1665年世界上第一本学术期刊《哲学学报》(Philosophical Transactions)创刊以来,学术科技论文的发表量也是呈指数级增长。2010年就有研究指出,目前全球约有学术论文5000万篇。2014年的《期刊引用报告》(Journal Citation Reports)显示共收录17887种期刊,2370078篇论文;根据全球最大的摘要和引文数据库Scopus的收录情况统计,2014年全球共发表论文2731833篇。

毫无疑问,科技论文反映了当前科学技术发展的前沿和趋势。科技图书的出版则相对滞后,但更具系统性和权威性。基于对海量科技论文的分析,将提高科技专业图书策划的针对性和前瞻性,准确把控选题方向,更好地为科研人员服务。本文以大气科学为例,来探讨如何从海量的数据库中提取数据,利用大数据技术帮助编辑进行合理地策划选题。

1.利用大数据分析学科的主要研究领域

大气科学在中国的学科分类中为一级学科,又分为气象学和大气物理与大气环境两个二级学科。而利用大数据技术,通过聚类分析,可以分析出当前大气科学研究的5个主要领域。

根据数据库Scopus的收录情况,大气科学学科共收录118种期刊,2010-2014年期间全球共发表58025篇文献,将数据导入知识图谱可视化软件VOSviewer中进行分析,即可得到论文关键词的聚类图(图1)。从图中可以看到,近5年来,大气科学关键词自动聚类为5个子学科,分别为大气物理(黄色区域)、大气化学(绿色区域)、大气探测(紫色区域)、天气学(红色区域)与气候学(蓝色区域),表明以上5类子学科是近年来大气科学中最为关注和集中的关注领域。

图1 2010-2014年大气科学发表论文关键词聚类图

2.利用大数据分析学科的重点研究方向

除了聚类分析,得出大气科学的主要研究领域之外,在关键词热度图中(图2),能够更加直观地甄别大气科学发展的重点及热点。红色为相对增长较快的领域,而蓝色则为增长缓慢甚至下降的领域。关键词的大小则反映了相关性及科研产出量的大小。通过对图2进行分析可以发现,大气化学和气候变化领域是两个增长比较快的领域,在未来的选题策划中可以重点关注。

增长最为明显的为大气化学领域,包括大气颗粒(particle)、气溶胶颗粒(aerosol particle)、二次有机气溶胶(SOA)、化合物(compound)、苯(benzene)、有机碳(organic carbon)等。另外,随着工业化进程的加速,空气污染(air pollution)也在加剧,也逐渐成为研究的热点领域。

气候变化领域中,既包含传统气候学的背景,同时还涉及天气学的范畴,是当前研究的另一个热点和重点领域。20世纪70年代以来,随着气候变暖,全世界发生各类极端天气气候事件的频次显著增加,不少地区由于气象灾害导致粮食产量大幅度下降,引起世人对气候的严重关注。气候变化不仅仅是一个科学问题,也涉及到了经济、金融,直接为国计民生服务,从图2中也可以看到类似战略(strategy)、政策(policy)、风险(risk)、健康(health)等关键词的出现。另外,图2中左下角气候预估(climate projection)是一个明显增长迅速的领域,包括气候模拟(climate simulation)、海气耦合模式比较计划(CMIP3)等。

图2 2010-2014年大气科学发表论文关键词热度图

3.通过大数据分析主要的研究机构

研究机构是科技专著的主要组稿的来源,掌握每一个领域都有哪些科研机构在研究对于科技编辑来讲非常重要,可以了解整个学科在国内的分布情况,选择重点的学校及科研机构重点走访。

2010-2014年期间,国内的科学家在大气科学领域的期刊上共发表论文7545篇,其中中国科学院大气物理研究所以1350篇的发文量排名第一,其次为中国科学院1090篇,中国气象局709篇,南京信息工程大学632篇,以及北京大学472篇。排名第六到第十位的分别为中国气象科学研究院、解放军信息理工大学、南京大学、中国科学院研究生院和北京师范大学(表1)。

从数据来看,中国科学院无疑是发文量最大的单位,包括作者单位署名中的中国科学院,及其下属机构中国科学院大气物理研究所和中国科学院研究生院三种情况。考虑到作者在单位署名时的不规范等因素,虽然不能简单地将数据累加,但也足以反映国内中国科学院在大气科学领域的领先地位。同理,中国气象科学研究院是中国气象局的下属机构,所以,将二者合并后中国气象局则成为国内大气科学研究的第二梯队。

表1 大气科学领域中国科研机构论文发表情况(2010-2014年)

4.利用大数据分析潜在作者

作者是科技编辑的主要工作对象,也是科技图书的主要读者。期刊论文的作者也往往是图书的作者,或者是潜在的图书作者,关注发文量较高的作者,可以提高图书选题策划的精准度。通过对数据库中的作者进行分析,可以发现2010-2014年发文量超过40篇的中国大陆作者共有11人。其中发文量最多的为中国科学院大气物理研究所的周天军(Zhou, Tianjun)研究员,高达83篇;其次为中国科学院地球环境研究所的曹军骥(Cao, Junji)研究员和北京大学的胡敏(Hu, Min)教授,发文量分别为59和58篇;排名第3至11位的作者详见表2。

表2 大气科学领域中国学者发表论文数(2010-2014年)

利用数据库的海量数据,进行大数据的挖掘、整理、分析和趋势预测功能,可以为专业编辑提供一个客观的数据参考,有助于出版社提高选题的针对性、组稿的准确性,以及出版的前瞻性。当然,由于国外学科分类的体系与国内稍有差异,而且发表论文时也难以避免有不统一的地方,所以不能走入唯数据论的误区,还需要发挥编辑的主观能动性。依靠编辑丰富的经验进行主动调整,基于数据分析结果来进行创造性加工,才能更加客观地反应真实情况。

随着数据量的逐年增加,数据挖掘与分析技术、工具也层出不穷。科技编辑同时也要加强学习,了解最先进的技术和工具,借助最先进的工具为专业出版服务,才能实现科技出版,乃至整个出版行业的持续发展。

(作者单位:陈红系气象出版社,田慎鹏系爱思唯尔科技图书部)

猜你喜欢
中国科学院选题大气
大气的呵护
《中国科学院院刊》新媒体
中国科学院院士
——李振声
祝贺戴永久编委当选中国科学院院
大气古朴挥洒自如
《中国科学院院刊》创刊30周年