学术大数据智能技术赋能科技期刊编辑的探索

2022-05-09 13:22赵雯佳
新闻研究导刊 2022年1期
关键词:数据挖掘

摘要:随着中国数字出版业的蓬勃发展,来自科学研究成果的学术大数据正受到越来越多的关注。编辑作为科技期刊出版的主要参与者,也应与时俱进,开拓大数据思维。目前,国际上已有众多研究者利用人工智能方法针对学术大数据开展了深入的理论和应用研究,产生了许多值得借鉴的实例,对推动科技期刊出版业的数智化转型起到了积极作用。文章从科技期刊编辑的日常工作出发,在充分调研的基础上,总结当前学术数据挖掘领域相关的最新研究成果,及其在选题分析、约稿、学术不端审查、送审、期刊宣传及论文推送等方面的最新应用,并基于此对人工智能时代科技期刊编辑顺应出版业发展所应具备的思维模式进行探讨。

关键词:学术大数据;数据挖掘;科技出版;期刊编辑

中图分类号:G237.5 文献标志码:A 文章编号:1674-8883(2022)01-0017-03

一、引言

近年来,互联网技术的飞速发展使人们可以十分便利地通过网络获取各种各样的信息,也为各行各业积累了庞大的数据。目前,大数据人工智能技术已经与许多传统行业和科研领域进行了深入的交叉融合,并在国内外取得了诸多令人瞩目的科技成果。事实上,科技期刊出版领域的数智化转型依然方兴未艾。2020年6月30日,中央全面深化改革委员会第十四次会议审议通过了《关于加快推进媒体深度融合发展的指导意见》,在基础建设水平不断提高及政策支持和引导的大背景之下,国内科技论文新媒体如雨后春笋般蓬勃发展,为用户提供了更加便捷、多元化、个性化、碎片化的科研信息及知识服务。

因此,越来越多的研究者及科技期刊选择以数字出版的方式发布科研成果。仅以国内在线学术数据库——中国知网为例,截至2019年底,其共收录来自世界70多个国家或地区的文献共计2.8亿余篇,这些海量的“学术大数据”正日益受到关注。国际上已有众多研究者利用人工智能方法对学术大数据开展了理论和应用研究,并已获得了丰硕的成果。在大数据人工智能时代已然到来的今天,编辑作为科技期刊出版行业的重要参与者,需要及时拓展自身的思维模式,主动了解并熟悉基于学术大数据的最新智能技术和应用成果,将大数据思维引入日常工作中,对科技期刊出版业的数智化转型起到积极作用。

笔者在充分调研国内外相关文献的基础上,从科技期刊编辑的日常工作内容为出发点,总结并探讨学术大数据及数据挖掘技术在科技期刊出版业中的最新研究成果,以及具有借鉴意义的应用实例,进而对人工智能时代科技期刊产业发展所面临的机遇提出了自身的思考,以期为编辑同仁提供一定的参考和借鉴。

文章将编辑工作分为出版前、出版中及出版后三个阶段,并基于此详细梳理目前学术大数据智能技术在科技出版领域的最新研究成果,以及值得借鉴的具体应用实例。

二、出版前阶段:行业热点分析、选题策划及约稿、组稿

全媒体背景下的科技期刊作为发布最新研究成果的平台,其选题和专题策划必须紧紧围绕最新的研究热点加以开展,既要坚持需求导向,又要秉持精品意识[1]。在进行具体的选题策划工作之前,详细分析相关领域的研究现状及热点方向十分必要。如今,学术大数据挖掘技术为行业调研及选题策划提供了新的途径。举例来说,近年提出的线性判别分析方法是数据挖掘领域中一种经典的非监督文本主题建模方法,其可从大规模文本数据中提取出潜在的主题信息。线性判别分析方法自提出以来,已在诸多科研領域得到了广泛的应用,并针对不同领域的数据特性进行了多方面改进,其建模效果也得到了显著提升。利用线性判别分析方法对不同年度的学术大数据进行建模,可以快速获得精炼后的论文主题,并动态追踪研究,从而为编辑确定备选选题提供帮助和参考。

在确定选题后,如何找到专精于选题行业且具有足够学术影响力的专家进行约稿从而获得优质稿源,是打造精品科技期刊品牌的又一关键环节。在此阶段,约稿对象的研究方向与选题内容的契合度往往比其权威度的优先级更高,在短时间内找到尽可能多的与选题方向相关的研究者就成为该阶段的迫切的需求。在数据挖掘领域,解决该问题的方法主要聚焦于利用研究者历史学术发表情况(如学术论文、专利、基金申请书等)进行关键内容的语义匹配。近年来许多学术平台均为研究者提供了“学者主页”这一功能,如谷歌学术、百度学术等。基于这一功能,研究者可以及时整理、更新、追踪自己发表的论文和相关引用情况。利用这些“学者主页”数据,可以构建完整的专家数据库,不仅包括专家姓名、职称、所属单位,还能够通过其发表的论文内容对学者的研究方向进行匹配,并对其学术影响力进行评估。基于以上方法可快速得到研究方向与选题最匹配,且学术影响力最大的约稿候选人名单,该结果可为编辑部的约稿工作提供参考。

目前,一些机构和单位已开发了可辅助编辑进行选题策划、组稿约稿的基于人工智能技术的相关产品。例如,由清华大学开发的学术挖掘系统、由陈·扎克伯格慈善倡议机构发布的元宇宙系统[2],以及由美国斯坦福大学图书馆及Yewno公司共同开发的Yewno系统等[3]。以上产品的发布,使科技期刊编辑工作中的选题策划、组稿及约稿阶段,从传统的以主观经验为导向转为以数据为基础的、更具有前瞻性及客观性的过程。同时,这些产品在自动分析海量数据后能够快速推测出更具有话题性的选题和合适的约稿对象,大大提高了该阶段的工作效率。

三、出版中阶段:学术不端检测及外审专家遴选

在科技论文的初审阶段,编辑的一项重要工作即检查来稿内容是否符合查重要求。我国利用人工智能开展学术成果查重的探索起步相对较早。中国知网于2008年推出的学术不端文献检测系统是国内较知名的学术不端行为检测产品,其主要基于语义分析的自适应多阶指纹分析技术判断论文之间是否存在相似的表述、公式和表格等[4]。

随着学术不端检测系统在出版业中的广泛应用,全文抄袭或主要内容原文抄袭的现象已较为少见。然而,有的稿件依然存在错误引用、描述不当、恶意篡改和洗稿等“隐性”学术不端现象。近年来,针对这类问题,研究者们提出了基于跨段落语义匹配、学术引用异常检测等学术大数据挖掘方法,这些方法尚处在测试和探索阶段。

目前,国内许多学术网站正积极地优化查重技术,尝试利用机器学习技术分析论文的结构,自动识别论文的研究对象、方法和结论等,并对这些内容自动进行相关性分析,甚至对论文的创新性进行评价。相信在不久的将来,基于人工智能的学术不端检测系统将为科技期刊编辑提供更全面和完善的服务,进一步增强编辑辅助工作的便捷性和可靠性。

为保证科技期刊的质量,编辑在出版的各个环节均须严格把关。外审主要由论文相关领域的审稿专家完成,是综合评定稿件内容是否达到出版要求的重要步骤,外审专家给出的审稿意见是决定稿件能否发表的主要参考标准之一。

因此,选择可对稿件提出科学、公正审稿意见的外审专家就显得尤为重要。与过去相比,现代科学研究的协作性越来越强,学者之间的合作或利益关系也越来越复杂和密切,仅排除同单位具有明显相关性的专家作为审稿者往往也无法保证审稿意见的客观性。学术数据挖掘领域中的“合作网络及学术社区发现”问题及相关方法可为上述困境提供一种解决思路。

具体而言,通过论文共同作者数据可构建以作者合作关系为基础的“学术合作网络”,在该网络中节点为论文作者,若任意两节点之间存在一条边,则代表两者之间存在合作关系。基于该网络和图数据挖掘中的“社区发现”技术,可发现作者之间的隐性合作属性,从而自动发现潜在的学术利益冲突。在编辑选择外审专家时,如以该结果为参考,可最大限度保证审稿专家的中立性和客观性。

目前,国外的投审稿平台所提供的基于人工智能和学术数据挖掘的审稿人推荐和筛选服务的实例较多。例如,丹麦人工智能技术公司UNSILO开发的审稿人推荐系统已在科睿唯安投审稿平台上投入使用。在我国科技期刊出版领域,尽管基于人工智能和学术数据挖掘推荐及筛选审稿专家的实例还鲜有报道,但以人工智能技术辅助学术同行评议在我国科学基金评审领域却早有应用:国家自然科学基金委员会早在2012年起就开始了相关探索,系统采用自然语言处理技术分析学术论文数据库及研究者个人主页,通过语义分析比较基金申请书与相关专家的研究方向是否相符,以此为参考遴选出最适合的评选人。数据表明,该系统的指派效率约为人工的285倍,且专家评审的认真度有明显提高[5]。

四、出版后阶段:宣传和推广

在当期论文出版后,从中选取研究内容独具创新性、内容和质量俱佳的论文并进行大力推广,一方面可以提高期刊自身的影响力,另一方面也可体现期刊的学术“品位”以及紧跟领域前沿问题的出版导向,从而吸引更多高质量的独创性论文投稿。在这方面,以往常规的做法往往包括设定专栏和主题、将当期“主打”论文排在前列或将其设定为“封面论文”等。

在引入学术大数据智能技术前,通常由主编或责任编辑以稿件的审稿意见为主要参考,并根据自身经验选择学术声望较高的作者撰写的论文作为当期的“主打”论文。这种方式存在片面性,且无法完全杜绝主观因素的影响。利用前述的学术大数据的“热点分析”应用实例,可在选择“主打”论文阶段为候选论文的题材提供借鉴。

此外,目前学术大数据领域中的一些应用可通过论文引用关系构建论文引用和作者引用网络,并基于该网络和图数据挖掘中的链接分析算法,如网页排名算法、基于超链接的主题搜索算法等,计算论文和作者的影响力指数。该指数与传统的下载量、简单引用统计等不同,其可从传播学理论的角度来评估论文和作者的影响力。该指数能够帮助期刊定期遴选特色论文、热门论文以及相关作者,从而为期刊宣传、内容传播和扩大影响力等提供新的思路和途径。

与上述相对“被动”的期刊宣传方式相比,向研究者推送最新出版的学术成果供其参考则属于更加“主动”的宣传策略。然而,如果投送内容不够精准,不仅会被部分接收者当作“垃圾信息”屏蔽,长此以往对期刊自身的品牌建设也是不利的。

当下,随着新一轮科技和产业革命的不断发展,新兴的交叉学科也展现出新的活力[6]。这些交叉学科的研究者对推送服务的精确度往往具有较高的要求。通过精准的信息投送宣传最新出版的科研成果,并助力于新兴交叉学科的蓬勃发展,成为全媒体时代摆在科技期刊编辑面前的又一重要课题。

在学术大数据领域,基于前述“学者主页”中的学术成果与期刊论文关键词的语义匹配,可以为相关学者实现个性化的论文推荐,以实现“千人千面、万人万面”的定制化期刊内容推广和精准宣发。国家新闻出版署出版融合发展(武汉)重点实验室打造的国家开放科学计划,即是基于人工智能技术实现内容精准推送的典型实例。其通过建立编辑和读者的双向互动关系,更精确地将相关内容推送给最有需求的读者。

此外,上海大学期刊社主办的《应用科学学报》也将数据挖掘和精准匹配技术用于期刊内容的推送过程中,取得了较好的效果,并显著提高了期刊的影响力[7]。

五、人工智能赋能下的科技期刊编辑思维模式

传统的科技出版工作非常依赖编辑本身的主观经验性,如专家库和相关选题的调研、积累及整理等,均需要编辑通过人工的方式进行。同时,编辑工作涉及的流程及环节也较为琐碎,数据之间的联系也未能打通。因此,传统编辑工作往往以流程推动为主,常常“遇见问题,解决问题”,属于滞后式的工作模式。近年来,大数据、人工智能技术的不断发展和完善给科技期刊出版业带来了全新的机遇,也使编辑人员自身的工作和思维模式发生了变革。

具体而言,依托上文介绍的学术数据挖掘相关技术,未来编辑出版工作将逐渐转化为客观科学的大数据智能化驱动模式。利用大数据技术将编辑各流程完整打通,可实现前瞻式的编辑出版工作流程,如科技期刊专辑的选题,作者、审者关系的维护,宣传媒体的投放及选择等,均可以做到未雨绸缪。

六、结语

在全媒体时代已然到来的当下,人工智能和大数据技术的发展也为出版业带来了机遇和挑战。在此背景下,科技期刊编辑应适应变化、拥抱变化,积极将数据挖掘技术应用于日常工作中,充分发挥人工智能对科技期刊出版业的赋能作用,并逐步尝试使用大数据思维审视出版流程中的每个环节。文章在充分调研的基础上,总结了目前学术大数据智能技术在科技出版行业的最新科研成果及应用实例,进而对人工智能时代科技期刊编辑顺应出版业发展所应具备的思维模式进行了探讨。

参考文献:

[1] 游小秀,栗延文,蒋亚宝.科技期刊新媒体精品选题策划[J].编辑学报,2020,32(6):84-87,96.

[2] 刘银娣.学术出版领域的人工智能应用:现状、挑战与应对[J].科技与出版,2019,38(1):64-68.

[3] 刘畅,姜京梅,范瑜晛.人工智能在科技期刊选题策划中的应用与应对策略[J].中国科技期刊研究,2020,31(8):909-914.

[4] 曾玲,张辉洁,冉明会,等.人工智能时代科技期刊对学术不端问题的研究进展[J].中国科技期刊研究,2020,31(3):270-275.

[5] 江虎军,郝艳妮,徐岩英,等.國家自然科学基金项目同行评议的智能化探讨[J].中国科学基金,2019,33(2):149-153.

[6] 刘颖,姜红,季景玉,等.科技期刊引领新兴交叉学科发展模式的探究:以我国中医药类期刊与网络药理学互动发展模式为例[J].编辑学报,2020,32(2):99-102.

[7] 刘平,杨志辉.人工智能构建科技期刊智慧出版模式[J].中国科技期刊研究,2019,30(5):462-468.

作者简介 赵雯佳,硕士,编辑,研究方向:大数据技术与地震学、编辑出版学等领域的交叉应用。

猜你喜欢
数据挖掘
基于数据挖掘探讨慢性肾衰竭处方规律
近十年国内教育数据挖掘领域的应用技术分析
数据挖掘技术在内河航道维护管理中的应用研究
数据挖掘过程模型及创新应用
数据挖掘综述
软件工程领域中的异常数据挖掘算法
基于R的医学大数据挖掘系统研究
电子政务中基于云计算模式的数据挖掘研究
数据挖掘创新应用
数据挖掘的系统构成与发展趋势