论文标题长度与被引频次的关系研究

2024-01-16 10:25俞立平程凯林

晋图学刊 2023年6期

俞立平,程凯林

(浙江工商大学统计与数学学院,浙江杭州 310018)

0 引言

标题是一篇论文的画龙点睛之笔,在论文中具有十分重要的作用。标题点明论文主题,有的学者将论点作为论文标题,有的学者从研究视角角度给论文命名,有的学者从研究对象角度命名,有的学者从研究方法角度命名等等,各具特色。一个好的标题具有吸引读者、激发读者阅读兴趣的作用。标题长度是学术论文的来源指标之一,一般期刊对论文标题长度都有明确的规定,标题必须简洁明确。

标题对论文被引具有重要影响。被引频次是衡量学者论文和期刊影响力的重要指标之一,在学者查找文献时,一个好的标题能够吸引读者阅读和下载,从而充分增加了引用的可能性。从标题长度看,主要有以下特征:较短的标题往往关注研究热点,容易被引用[1];而较长的标题提供的信息量相对丰富,从而方便读者在最短的时间了解论文大致内容。目前,鲜有学者对论文标题和被引频次之间的关系进行研究。

研究论文标题长度和被引频次之间的关系具有重要意义。研究标题长度对被引频次的影响机制、特征和规律,可以丰富文献计量学的理论,而且对于作者设计出合适的论文标题有重要的指导意义。

1 文献综述

关于论文标题的研究,目前很多学者认为论文标题要简洁以及明确:杨新兴[2]、陈涤瑕等[3]认为论文标题必须简洁、明确,引人注目,如果过于繁琐,冗长,将不方便阅读、查询和检索,不便于读者记忆和引用;温冠男[4]认为论文标题除了要精简明快、准确无误和符合规范,还要掌握标题的核心以及特点;曹裕才[5]认为论文的标题要使其含义能准确反映文章内容和主要信息,能够突出论文中心内容并且可以正确引导读者阅读和参考;杨晓成[6]对其写作经验和分析论文标题相结合,提出了谦虚保守型标题、亮点突出型标题和个案研究型标题三种类型的论文标题,并对每种标题类型提出了建议。

关于论文被引频次影响因素的研究,一部分学者从文献计量指标角度开展研究:Bornman L.等[7]、Vieira E.S.等[8]研究发现论文被引频次与共著作者数量、引用文献数量、页数和期刊影响因子存在一定关联,同时与论文长度也存在一定的关系,但这种关系非常弱;陈悦、宋超等[9]的研究表明,论文标题和摘要区别度、论文使用次数、热点持续能力等因素对被引频次具有正向影响,而论文长度对被引频次具有负向影响,作者合作强度、引用参考文献数与被引频次之间呈现“倒U型”关系;王黎明、张啸岳等[10]等就论文作者数和被引频次的关系进行了研究,发现单作者论文和多作者论文的平均被引频次没有显著差异,作者数量对被引频次有影响,但影响效果并不显著;俞立平[11]认为论文篇幅与被引频次总体上无关,提高论文篇幅进而提高影响因子的机制是降低分母载文量,不能提高论文影响力。

关于论文标题与被引频次的研究,国外有多篇文章探讨了各种文章特征(例如标题、作者数量、全文长度、词汇密度等)对文章下载量和被引用量之间的关系,其中标题是研究最多的特征之一,但是国内的有关研究还较少。学者通常认为标题长度和类型等特征与文章的下载量和引用量相关,但是关于标题长度与被引用频次之间的关系的方向(甚至是否存在)还没有达成共识。在现有的研究中,关于标题长度与被引频次之间关系的研究结论并不相同。第一种观点认为标题长度与其被引用次数呈负相关:Jamali H.R.等[12]研究结果表明,长标题的文章比短标题的文章的下载量略少,带有冒号的标题往往更长,下载和引用次数更少;Paiva C.E.等[13]认为标题较短的文章比标题较长的文章更吸引人,更容易被浏览和引用;Subotic S.等[14]研究显示,标题较短的文章的被引用频次更高,因为这些论文往往发表在影响力较高的期刊上。

第二种观点认为论文标题长度与其被引用次数呈正相关:Habibzadeh F.等[15]指出较长的标题更详细地描述了研究方法和/或结果,更容易被研究者检索,从而吸引更多的关注和引用;Jacques T.S.等[16]也认为标题长度与其被引用次数呈正相关;甄长慧等[17]研究表明,长标题论文被引次数显著高于短标题论文,论文被引与下载次数成明显正相关;石庆玲等[18]的研究结果显示,论文标题长度对论文的下载率和引用率具有显著的正向影响,其中对下载率的影响更大。

第三种观点认为论文标题长度与其被引用次数不相关:Huggett S.[19]研究了2006—2010年的《细胞》学术论文的引用情况,并指出标题长度和总引用次数之间没有直接的联系,标题在31到40个字符之间的论文被引用的次数最多;Braticevic M.N.等[20]、Fumani M.R.等[21]学者也指出标题长度与被引用次数没有相关性。

此外,还有研究认为标题长度与其被引之间的关系与论文的发表时间有关。魏瑞斌[22]指出两者之间的关系与数据的时间属性关联性较强:对于发表时间较长的论文,论文标题长度与其被引用频次正相关;对于发表时间较短的论文,论文标题长度对其被引的影响不显著。

结合国内外的现有研究来看,关于论文标题长度与其被引频次之间的关系,学者们的研究结论并不一致:有些学者认为论文标题长的论文包含丰富的信息,更容易被研究者检索到;但是有些学者认为标题较短的论文更具吸引力,从而吸引研究者去下载阅读。研究结论的不一致主要是由于数据源不同、学科差异性以及研究方法的多样性所导致的,特别是样本选取不合适以及研究方法的局限性,可能会得到错误的结论。此外,现有的研究往往选择多种期刊或者不同时间的论文作为研究对象,但是期刊的被引频次会受到发表时间长短[22-23]、期刊质量[14,23]的影响。因此,有必要对一种期刊某个时间段的论文开展研究,以尽可能排除论文的发表时间长短、期刊质量对其被引频次的影响。

本文以2017年《情报杂志》为例研究论文标题长度与被引频次的关系,能够保证所要研究论文的发表时长以及论文质量是近似一致的。此外,《情报杂志》是图书馆情报与文献学期刊中具有代表性的期刊,载文量较大,是较为理想的研究对象。本文基于中国知网数据库,采用Mann-Whitney U检验、回归分析和分位数回归来研究标题长度与被引频次之间的关系,并对研究结果进行分析和总结。

2 理论基础和研究方法

2.1 理论基础

关于论文标题长度和被引频次之间的关系,其内在机制较为复杂(见图1)。首先,研究本问题的前提条件是论文质量相同,由于不同期刊论文质量可能存在一定的差异,因此如果基于一种期刊某个时间段的论文来进行研究更有意义。当然,对于同学科影响因子大致相近的期刊,可以认为论文质量近似相同。

Fig.1 Influencing mechanism

其次,标题内容是决定作者是否进一步选择下载阅读,并可能进一步引用的关键。一般情况下,很少有作者根据检索论文标题的长度决定是否下载,主要关注标题的内容,以决定是否具有下载的必要。从这个角度,也可以说论文标题长度与下载以及后续被引无关。

从分组视角进行分析,标题长度与被引频次关系的内在机制是标题长度与标题内容相关:当标题较短时,往往是研究热点某个关键词的进一步拓展,或者某个重要的关键概念,这都容易被引,因此平均被引频次较高;当论文标题较长时,由于能够相对详细说明论文的内容,使得读者对论文产生较大的兴趣,从而增加被引,也会导致平均被引频次较高。当论文长度适中时,由于标题内容与标题长度并没有严格的逻辑关系,此时论文标题长度与被引可能不存在明显的分组特征。

从标题长度与被引频次的相关关系看,并不存在标题长度越长会增加被引,或者标题长度越长会减少被引的机制,标题长度与被引频次无关。

基于以上分析,本文提出以下两个假设:

H1:当标题较短时,论文平均被引频次较高;

H2:当标题较长时,论文平均被引频次较高;

H3:论文被引频次与标题长度无关。

2.2 研究方法

本文将从内部视角和外部视角来分析论文标题长度和被引频次之间的关系。从内部视角来看,我们可以研究标题长度在不同分组下的平均被引频次,分析其中存在的大致规律,并采用Mann-Whitney U检验来分析它们之间的规律是否显著。从标题长度和被引频次的外部视角来看,采用回归分析和分位数回归来探究它们之间的关系:回归分析可以探究回归的弹性系数是否通过统计检验,是标题长度对被引频次影响的平均水平;分位数回归研究在不同被引频次水平下,论文标题长度与被引频次的弹性系数是否存在差异。两种研究方法相结合可以全面系统分析论文标题长度与论文被引频次之间关系的全貌。

2.2.1 Mann-Whitney U检验

Mann-Whitney U检验是检验两个样本之间是否存在显著差异的非参数检验方法,其基本思想是:首先,将两样本数据进行混合并按照升序排序,求出各数据的秩;其次,进一步比较各组秩的均值是否存在显著的差异。Mann-Whitney U检验统计量的计算公式如下:

或

(1)

其中,R1为样本容量为n1样本的秩和,R2为样本容量为n2样本的秩和。

2.2.2 回归模型

本文将被引频次作为因变量,标题长度作为自变量,同时对自变量和因变量取对数再做回归,取对数不会改变原数据的性质,而且可以提高数据的稳定性。用以下回归方程表示:

log(Y)=a+b1log(X)。

(2)

为更进一步分析被引频次和标题长度之间的非线性关系,引入标题长度的二次项来分析:

log(Y)=a+b1log(X)+b2log2(X)。

(3)

其中,Y表示被引次数,X表示论文标题长度。

2.2.3 分位数回归

一般意义上的回归实质上是研究被解释变量的条件期望,而分位数回归[24]是用来估计解释变量X与被解释变量Y的分位数之间的线性关系的建模方法,分位数回归最早是由Koenker R.[25]提出,他能够更加全面的描述被解释变量条件分布,而不仅仅是分析被解释变量的均值(条件期望),同时分位数回归也比最小二乘估计更加稳健。

一般线性回归模型可设定如下:

ρx(t)=t(τ-I(t<0)),τ∈(0,1)。

(4)

在满足高斯-马尔可夫假设前提下,可表示如下:

E(v|x)=a0+a1x1+a2x2+…+akxk。

(5)

其中,u为随机扰动项,a0,a1,a2,…,ak为待估解释变量系数。类似于传统的均值回归,分位数回归模型定义如下:

Qy(τ|x)=a0+a1x1+a2x2+…+akxk+Qu(τ)。

(6)

可采取线性规划法(LP)估计其最小加权绝对偏差,从而得到分位数回归解释变量的回归系数:

minEρx(y-a0-a1x1-a2x2-…-akxk)。

(7)

求解得:

(8)

3 研究数据和实证结果

3.1 研究数据

本文选取图书情报与文献学CSSCI期刊中《情报杂志》期刊进行研究。载文选取的时间为2017年,《情报杂志》2017年的载文量为415篇,删除其中含有会议通知、书评和简讯等文章,最后有效论文为402篇。关于论文标题长度的计算,统一包含副标题字数。变量的描述统计如表1所示。

表1 变量描述统计

3.2 论文标题长度与被引频次关系的统计分析

论文被引次数的数据分布如图2所示。从图中可以看出其不服从正态分布,Jarque-Bera检验值为463 987.60,p值为0.000,拒绝正态分布的原假设。被引频次的极大值为221,极小值为0,均值为8.88,总的来说被引频次在10以下的论文占大多数。

Fig.2 Map of cited frequency distribution

论文标题长度的数据分布如图3所示。Jarque-Bera检验值为53.78,对应的p值为0.000,不服从正态分布,但较为接近于正态分布。标题长度在20～25个字符内有最多的论文,论文标题最长为90个字符,最短为8个字符。

Fig.3 Distribution chart of paper title length

不同层次论文标题长度与平均被引频次的关系如表2所示。论文标准最短设置为10个字符,并按5个字符长度进行论文标题长度分组,并计算其平均被引频次:当论文标题长度在10以下时,平均被引频次为15.10;当论文标题在11～15之间时,平均被引频次为7.21;当论文标题长度在16～40字符之间时,发现除了31～35字符间其平均被引频次为15.81以外,此情况可能由于异常点所致,其余字符段的平均被引频次围绕在8～9之间波动;当论文标题长度高于40个字符时,平均被引频次在3.65左右波动。通过以上分析可以初步发现在论文标题长度适中或者较短时论文被引频次较高,论文标题较长的论文被引频次较低。

表2 不同论文标题长度下的平均被引频次

3.3 论文标题长度和被引频次的Mann-Whitney U检验

根据以上的统计分析,进一步对不同情况下的论文标题长度和被引频次之间的关系进行统计检验。据图2,论文的被引频次呈现偏态分布[26],并且不能通过数据转化的方式将其转化为正态数据,因此本文利用Mann-Whitney U检验法来验证不同情况下的论文被引频次的差异性。检验结果如表3所示。

表3 不同情况下的Mann-Whitney U检验

第一种情况是将论文标题长度分为两个层次:第一个层次是将标题长度小于等于40个字符的作为一组,其论文被引频次为9.01;另一个层次是将论文标题长度较长即大于40个字符的放在一起作为一组,其论文平均被引频次为5.88。z值为-2.262,对应的p值为0.024,在5%的水平下通过了统计检验,表明两组样本的论文被引频次存在显著差异,短标题的论文被引频次更高。

假设H2没有通过统计检验,一般期刊论文标题的长度规定不超过40个字符,本文标题长度包括副标题,所以会出现超过40个字符的情况。研究表明,论文增加副标题不一定能增加被引,用40个字符完全可以将论文研究内容高度概括。

第二种情况是探讨标题长度小于40个字符下的不同分组表现,将标题长度分为4组来进行检验,分别为标题长度的25%和75%、30%和70%、40%和60%以及50%和50%。根据结果可以得到在25%和75%分组,即标题字符小于10和大于10字符这一组内,在5%显著性水平下通过了检验,说明标题长度短是有利于增加被引次数。而在另外三个分组结果并没有通过显著性检验。这样,假设H1就通过了统计检验,即当标题长度较短时,论文平均被引频次较高。

3.4 论文标题长度和被引频次的回归分析

基于外部视角下探究论文标题长度和被引频次之间的关系,可以采用回归分析进行研究。因少数被引频次的数值为0,这里采用计量分析中常见的方法即将被引频次数值加1然后再进行回归处理。回归结果如下:

log(Y)=2.236-0.143log(X)

(0.00)(0.209)

R2=0.003n=402。

(9)

上式中,Y表示被引次数,X为看论文标题长度,可以得到以下结果,虽然常数项通过了显著性检验,但论文标题长度并没有通过显著性检验,并且二者之间的拟合优度很低,只有0.003,说明论文标题长度和被引频次之间没有线性关系,论文标题的长短并不能影响被引频次的高低。

进一步分析引入标题长度的二次项进行回归分析,回归结果如下所示:

log(Y)=2.910-0.532log(X)+0.067log2(X)

(0.026) (0.552)(0.661)

R2=0.004n=402。

(10)

由上述结果可以得到,论文标题的一次项和二次项均没有通过统计检验,说明论文标题长度和被引频次之间不存在2次非线性关系。

从以上综合分析看,假设H3得到了检验,即论文标题长度与被引频次没有关系。

3.5 论文标题长度和被引频次的分位数回归

因本文样本容量所限,若采取过多频次分位数来研究标题长度与被引频次之间的关系价值不大,故对论文被引频次选取3个分位进行回归分析,结果如表4所示。

表4 分位数回归结果

从分位数回归结果看,论文标题长度无论在什么分位下,其回归系数均没有通过统计检验,这样进一步验证了假设H3。

4 结论与讨论

第一,标题长度与内容相关带来了其与论文被引频次相关。本文研究发现,从理论上来讲,在论文质量近似相等的情况下,是标题内容吸引作者下载以及后续的引用,没有任何一个作者会根据标题的长度来决定是否下载和阅读引用。但这并不是说标题长度与论文被引频次无关。当论文题目较短时,往往是研究热点或者关键概念,容易吸引读者注意,进而下载和引用。单纯从论文标题长短来看,其并不存在长度增加或减少越来越吸引下载和引用的机制。

第二,标题长度较短时论文的平均被引频次较高。本文基于《情报杂志》2017年402篇论文研究发现:当论文标题长度在10个字符以内时,其平均被引频次为15.10;而论文标题长度在11～40之间的平均被引频次为8.85,并且统计检验是显著的。说明标题较短时论文平均被引频次较高。

第三,较长标题论文的平均被引频次较低。本文研究发现:当论文标题较长时(超过40字符),平均被引频次为5.88;而小于40字符论文的平均被引频次为9.01,并且统计检验是显著的。这说明即使论文标题较长,能够对论文内容进行较全面的概括,但并不能有效提高论文的下载和被引频次。由于正常论文标题长度一般为40字符,超过40字符的往往含有副标题,这也从另外一个侧面说明尽管副标题有助于论文标题进行补充说明,但不能增加被引频次。

第四,论文标题长度与其被引频次无关。由于论文标题长度与被引之间仅仅存在分组统计分析的差异,并不存在严格变量之间的相关机制,多元回归和分位数回归的实证研究发现:论文标题长度和被引频次不相关;同时拟合优度极低;在引入变量的二次项后,这种不相关的结果并没有改变。说明论文标题长度和被引频次之间不相关,也不存在非线性效应。

与Huggett S.[19]、Braticevic M.N.[20]、Fumani M.R.[21]等学者的研究结论一致,本文的研究表明:论文标题长度与其被引频次无关;标题长度与内容相关带来了其与论文被引频次相关。对于论文标题长度对论文被引的影响,学术界并未达成共识,研究结论有时是相当矛盾的。本文认为研究结果不一致的原因主要有以下几个方面:第一,研究者选取的研究对象不一致,包括期刊的数量、种类、影响力、样本量大小以及学科的差异[23,27],数据源的不同是导致研究结论差异性的一个重要原因;第二,影响论文被引频次的因素是复杂多样的,论文的被引频次受到论文本身、期刊以及作者等多个因素的影响,在实际的研究中,大多时候只关注了因变量与自变量之间的关联,而忽略了其他干预和控制变量的作用,或者说未能有效排除论文标题长度以外的其它影响因素的干扰;第三,开展研究的方法具有多样性,研究方法的不适用性、局限性也会导致结论的不一致,甚至会得出错误的结论。

为了尽可能排除期刊质量以及论文发表质量对论文被引频次的影响,本文仅对《情报杂志》2017年的论文进行研究,使得研究结果更加准确。此外,本文综合采用Mann-Whitney U检验、回归分析、分位数回归方法进行分析,研究结论相互补充且一致,研究结果具有较好的稳健性。本文的数据量有限,至于进行大样本分析是否会得出更多的结论,或者有不同的发现,有待后续开展进一步研究。