基于洛特卡定律的民国时期巴渝文献分布与开发研究

2020-04-07 01:15刘小琳
图书馆界 2020年6期
关键词:洛特著作总数

刘小琳

(重庆图书馆,重庆 400037)

1 引 言

民国时期的巴渝文献是指1912—1949年间与巴渝历史文化有直接关系,内容涉及重庆的若干完整章节、民国时期巴渝籍人士(包括在重庆出生的外籍人士)的著作和寄居在巴渝的人士所撰写的其他代表性著作和期刊所载单篇文献。20世纪90年代,随着民国文献保护计划的开展,全国各地政府依靠本地图书馆及相关文献收藏单位,充分利用馆藏优势资源,搜集、整理文献,条件优越的单位甚至对文献进行数字化加工,形成具有地方特色或者时代特色的民国文献数据库。对民国时期巴渝文献分布规律进行探索,有利于推动对巴渝文献的高效整理与精准开发。上海师范大学的段晓林[1]“运用累积80%法,通过对2000年以来影印版民国文献出版情况的实际数据分析,测定出8家核心出版社,进一步分析各核心出版社在出版内容上的特色和重点,总结民国文献出版的共同特点及存在的问题,为图书馆采购影印版民国文献以及出版社对民国文献的进一步整理出版提供依据。”本文运用洛特卡定律探寻民国时期巴渝文献在作者、出版和期刊中的分布规律,以达到有效开发的目的。

2 洛特卡定律及数据来源

2.1 洛特卡定律

洛特卡定律(Lotka’s Law)是文献计量工作的定律之一,是时任美国纽约都市人寿保险公司统计处的洛特卡(Alfred J.Lotka,1880—1949)首次研究并揭示的科技文献数量与著者数量之间的关系[2]。为了考察研究科学生产率按作者分布的情况,洛特卡在化学学科领域选定《化学文摘》和1907—1916年累积索引,统计第一作者,在物理学科领域,选定《物理学史一览表》的人名索引,即1900年以来有突出贡献的 1 325 名物理学家。洛特卡使用物理和化学两学科科学生产率的数据,以横轴表示发表的论文数量,以纵轴表示论文作者数量的百分数,采用对数直接在坐标上描点连线,得到斜率为-2的一条直线,总结出数学表达式:fx=C/x2,其中,fx表示发表x篇论文的作者占有被统计的该学科科学工作者总数的百分比,x表示科学工作者发表的论文数量,C为常数,即为发表一篇论文的科学工作者占有该学科科学工作者总数的百分比。后经推演,C=6/π2≈0.6,文字表述为,写2篇论文的作者数量约为写1篇论文作者数量的1/4,写3篇论文的作者数量约为写1篇论文作者数量的1/9,而写1篇论文的作者数量约占作者总数的60%,产出N篇论文的作者人数大约是产出一份论文作者总数的1/N*N。因此,有人将洛特卡定律称为平方反比律,洛特定卡本人将此成果称为科学生产率的频次分布规律。

洛特卡定律在人类历史上第一次提出了不同著述水平的科学工作者的频率平方反比率,揭示科学生产率与其种类分布之间的关系。该定律最开始应用于物理、化学、医学等自然科学领域,直到20世纪80年代末,美国伊利诺斯大学图书馆学院、美国国会图书馆在图书馆学领域展开大规模地统计分析,对洛特卡定律进行经验性检验,随后几十年时间里,洛特卡定律在图书馆学、情报学、文献学、图象图形学[3]等领域得到广泛应用。

2.2 数据来源

《巴渝文库总目》是《巴渝文库》(2012年重庆市社会科学规划重大项目)前期出版项目之一,共分为古代卷单篇文献目录、古代卷著作文献目录、民国卷单篇文献目录、民国卷著作文献目录。本文研究所需要的数据来源于《巴渝文库总目》的民国卷部分。该目录在重庆图书馆工作人员的努力下,于2016年顺利出版。笔者将2012—2016年来对文献梳理结果在Excel表格中形成元数据,文献总数为 30 247 种,其中,散见于期刊的单篇文献 25 208 种(刊载期刊种数 2 090 种)和著作文献 5 039 种。笔者利用Excel表格的数据透视功能,仅对民国时期巴渝著作文献的出版时间、作者、出版机构进行统计分析,揭示民国时期巴渝文献的分布规律。

选取该项成果作为分析数据来源的原因是多方面的:一是民国时期的巴渝文献往往最能详细地记录巴渝地方的著述概况。抗战时期,以重庆为核心的抗战大后方战略地位形成,重庆取代了昔日上海、武汉的出版中心地位,拉动了整个巴渝地区出版业的发展,推动着巴渝地区出版业达到高潮;二是民国时期,重庆地区行政区划变化不大,相对固定,直到抗战全面爆发后,重庆由四川省政府直辖的乙种市,改为行政院直辖,重庆市的管辖范围由6区增加为12区[4],行政区划的扩大,更有助于巴渝文献的产出;三是由于民国时期印刷条件落后,许多文献以油印的形式出版,复本数量有限不易流传,纸张脆弱不易保存,尤其是日军对重庆的轰炸,许多珍贵文献毁于战火,不传于世,故千方百计地搜罗流传于世的巴渝文献作为研究数据源,较有代表性。

3 巴渝文献的分布规律

3.1 文献出版时间分布

在 30 247 种数据中,民国时期巴渝期刊文献 25 208 种,巴渝著作文献 5 039 种。文章以出版时间明确的著作文献 26 359 种数据(著作文献 4 877 种,单篇文献 21 482 种)为对象,分析文献在出版时间上的分布规律。

历史文献的出版与其所处社会历史背景密切相关。年份是反映文献所处社会历史背景的时间坐标,是文献组织、整理和研究的重要属性,通过年份的分析可以发现事物发展深化规律[5]。笔者梳理了民国时期历年来巴渝文献的产出数量(见图1)。

图1 民国时期巴渝文献出版时间与出版文献种数

笔者对民国时期巴渝文献的时间选取是从1912—1949年,在这三十多年的社会发展历程中有几个比较明显的时间点与文献的出现数量有着密切的关联。第一个时间节点是1919年。1912—1919年五四运动爆发,巴渝文献产出数量呈波浪式上升,但上升幅度较小。1919年五四运动爆发后。在新思潮的推动下,巴渝文献的产出量在原有基础上有了一些突破性增长。第二个时间节点为1935年。1935年2月9日,刘湘就任四川省保安司令,10月就任四川省主席,刘湘就职后,在政治、军事、经济着手统一川政,9月在四川统一发行了法币,使四川的币制与全国统一,至此,四川的军、民、财政统一于南京国民政府之下。川政的统一不仅对于重庆范围内区县的交流,更对重庆与外界的交流起到了很大的推动作用。1920—1935年,巴渝文献的产出数量猛增。第三个时间节点是1938年重庆陪都地位的确立。抗战全面爆发后,随着上海、武汉、南京的沦陷,以重庆为核心的抗战大后方战略地位形成后,全国各地很多出版机构内迁重庆,铸就了巴渝文献产出的辉煌态势。第四个时间节点是1945年日本受降。抗日战争胜利后,战前及战争期间迁入重庆的出版机构等相继迁出,巴渝文献的产出数量下降。倘若认真观察,也许第一个时间节点,每一段折线的背面都如实地反映出巴渝历史进程中每个特定时期的特性。正是由于上层建筑对巴渝文献的产出有着明显的影响,笔者提议,对民国时期巴渝文献的整理及开发,可以根据上述文献产出的时间阶段有针对性地进行。

3.2 民国时期巴渝著作文献在作者中的分布规律

“作者作为创作主体是文献最重要的属性特征之一,也是文献整理和著录中最受关注的要素之一。”[6]文章探寻了民国时期巴渝文献在作者中的分布规律,可以更有效地提升相关文献整理人员的工作质量。前文略述的洛特卡定律在社会科学中被称为幂律分布[7],亦被称为“长尾效应”[8]。“长尾”这一概念是在互联网出现后,人们关于新经济诸多理论中的一种经济模型构想,最早由美国知名经济杂志《连线》的主编克里斯·安德森提出。他系统地研究了当时一些著名的网络公司如亚马逊、Google等互联网公司的销售数据,与传统零售商的销售数据进行了对比,发现网络公司的销售数据同样符合统计规律,它就像以数量、品种二维坐标上的一条需求曲线,只不过拖着一条更长的尾巴,向代表品种的横轴尽头延伸,“长尾理论”由此得名。洛特卡定律与长尾理论反映出一致性,意在将研究的注意力转移到长尾部分。巴渝文献中的高产作者主要集中在尾部,研究尾部的高产作者,更能优化文献资源的建设工作。

民国时期巴渝著作文献作者分布曲线(见图2)所示的坐标中,横坐标为作者创作的著作种数N,纵坐标为创作N种著作的作者数量占有作者总人数(有明确作者的数量)的比例,该坐标中曲线走势的长属效应非常突出。创作文献种数5种及5种以上的作者总计232人,占作者总人数的6.2%,他们产出的文献种数 3 743 种,占文献总数的62%。处于尾部的6.2%的高产作者应是文献整理和开发人员重点关注的部分,不仅仅是因为他们产出大量作品,更是因为他们持续产出的文献具有极高的开发价值。

图2 作者创作文献种数与占作者总数据比例图

为了进一步具体展示这批有研究价值的文献,文章对产出著作排名前20的作者进行了排序(见表1)。从表1来看,产出数量多的作者是中央训练团、四川省政府、重庆市政府等机构、中央政治学校、教育部、国民参政会秘书处、新运总会;也有蒋介石、胡焕庸、周恩来、胡次威、冯玉祥等当时在民国有影响的政界人物;有任鸿隽、沈起予等出生于重庆的科学家和作家;还有老舍、张恨水、郭沫若、丰子恺、巴金、王云五等在抗战爆发后迁居重庆生活的著名作家及出版家。不管是机构还是个体,不管是本土作家还是迁居作家,他们共同完成了民国时期巴渝文献中处于尾部最为精粹的作品,是我们文献整理工作的重心。

表1 抗战时期巴渝著作文献产出作者排行表

民国时期巴渝著作文献在文献著者中的分布与洛特卡定律是否有一致性,笔者按照洛特卡定律的要求,对创作文献种数和作者占作者总数比例分别取对数,形成一个有两条走势线的对比图(见图3)。其中,直线是洛特卡定律理想走势线,曲线为民国时期巴渝著作文献的直实走势线,两条线的走势基本一致,但还存在一定的差别,从图3中可以看出,巴渝著作文献的斜率略小。洛特卡定律中的斜率为-2,代表作者创作作品总数的差异程度,斜率越大说明作者创作作品种数的差异程度就越大,斜率越小则反之。在创作作品为10种的节点前,创作文献数量为1种的作者人数 1 042 人,占作者总人数的28%,创作文献总数 1 042 种,占文献总数的22%;创作文献数量为2种的作者人数259人,占作者总人数的7%,创作文献总数518种,占文献总数的11%;创作文献数量为3种的作者人数133人,占作者总人数的3.6%,创作文献总数399种,占文献总数的8.4%……创作文献数量为10种的作者人数9人,占作者总人数的0.2%,创作文献总数90种,占文献总数的1.9%。民国时期巴渝著作文献走势线的总体斜率低于洛特卡理想走势线,表明民国时期作者创作文献数量的差异较小。在创作作品为10种的节点后,作者创作文献种数作者之间的创作差异突显,高产作者产出更多的文献,低产作者产出的文献更少,处于尾部的中央训练团、四川省政府、重庆市政府,教育部、中央政治学校、国民参政会秘书处、新运总会等5个创作团体占作者总人数的0.13%,创作文献数量为503种,占文献总数的13.4%。出现这种情况的原因主要在于时局的动荡,每个作者都希望有稳定及能够持续创作的社会环境,然而绝大部分作者在产出一部或几部作品以后,因抗战的爆发中断了他们持续创作的环境,只有少数作者或者党政团体能够持续创作,他们人数虽少,但产量极高,因此,处于长尾尾部的这些作者群体应该受到更多研究者的关注,进行专业开发。

图3 洛特卡定律理想走势线与民国时期巴渝著作文献走势线对比

3.3 民国时期巴渝著作文献在出版机构中的分布规律

出版社与作者一样,都是文献资源整理和建设过程中重要的文献特征。出版是个万花筒,每次都会看到不同的景象;出版是个多棱镜,每个角度都会折射出无数难以辨别的光彩;出版是指南针,它指引着人类文明发展的方向,指引着人们生活的方向。它的活动关乎人类的存在,关乎社会的秩序,关乎民族国家的文化根基。民国时期的出版机构呈现多样性,它可能是党机构或团体,可能是独立的出版社,总之,它们都是助推文献产生的组织机构,是文献产生的关键环节。本文分析民国时期巴渝著作文献在出版机构中的分布规律,同样有利于文献的整理、研究、开发与利用。重庆作为战时陪都,理所当然为战时全国的文化中心,书贾辐辏,引人注目。

与分析巴渝著作文献在创作者中的分布规律一样,本文选取有明确出版信息的著作文献数据为统计分析对象,总数为 3 903 种。以出版机构出版著作文献种类为横坐标,以占出版机构总数的比例为纵坐标(见图4)。由图4可知,只出版1种文献的出版机构有662家,占出版机构总数的61%;出版2种文献的出版机构有180家,占出版机构总数的17%;出版3种文献的出版机构有65家,占出版机构总数的6%。走势线有明显的长尾走势,出版文献3种及以下的出版机构总数为907家,占出版机构总数的84%,出版文献 1 217 种,占出版总数的31%,部分数据集中分布在走势线的左边;出版文献3种以上的出版机构有177家,只占出版机构总数的16%,但他们出版文献 2 686 种,占出版文献总数的69%,数据集中分布在走势线的右边即走势线的长尾部分,出版机构数量虽然较少,但是出版文献的种数却较多。在民国时期巴渝著作文献的整理和开发过程中,研究人员应该当把关注点聚集在尾部16%的出版机构,通过这少量出版机构的信息,就能得到69%的著作文献。

图4 出版机构出版著作种数与占出版机构总数比例

根据图4,笔者列出了处于长尾尾部出版文献前20的出版机构(见表2)。这些出版机构,有民营出版机构如商务馆印书馆、生活书店、开明书店、中华书局等;有官办出版机构如中国文化服务社、独立出版社、国民图书出版社、正中书局等;还有中共领导、支持和开办的出版机构生活书店等;也有党政机关自身出版教材、调查报告,如中央训练团、四川省政府、军事委员会、中国国民党中央执行委员会等;亦有自行出版文献的学术团体如四川农业改进所等。从事文献整理工作的人员也可以根据出版机构的性质与处于长尾尾部的数据结合,深入挖掘文献,并集中研究与开发,形成特色文献数据库。

表2 出版文献种数排名前20的出版机构

续表2

洛特卡定律只是反映出了巴渝著作文献在作者中的分布规律,本文则进一步运用洛特卡定律,探寻巴渝著作文献在出版机构的产出规律(见图5)。图5中,菱形描点的走势线为民国时期巴渝著作文献在出版机构中的真实走势线,横坐标为出版机构出版文献种数取对数,纵坐标为占有出版机构总数比例取对数,黑色圆形描点为洛特卡定律的理想走势线。在图5中,出版文献数量少于30种时,巴渝文献在出版机构中的走势线与洛特卡走势线呈现一致性;出版机构出版30种以上时,两条走势线的差距较大。如果依照理想的洛特卡定律描绘,出版文献数量不断增加,则出版机构应将持续减少,但据图5中民国时期巴渝文献在出版机构中的走势分布,出版30种以上的出版社仍较多。出现此种现象的原因在于抗日战争爆发后,随着南京、武汉相继失陷,重庆被升为战时首都,一跃成为全国军事、政治、经济、文化的中心,开拓出一个出版事业大发展的局面,先后内迁的新建出版机构和出版的文献均占全国的1/3左右[9]。本文列举的数据也是有利于巴渝著作文献整理工作的开展,各相关部门工作人员可以将研究的重点放在这些出版文献数量庞大的出版机构,通过少数的检索点来完成多数文献的搜集与梳理。

图5 洛特卡定律理想走势线与民国时期巴渝著作文献在出版机构中走势线对比

4 结 论

本文利用Excel表格的透视功能,抽取了民国时期巴渝著作文献的出版时间、作者和出版机构3个角度分析了巴渝著作文献的分布特征。

从时间角度的文献分布规律可以看出,不同历史时期表现出的特殊社会历史进程对于巴渝文献的产出有着显著作用,巴渝文献的整理与研究人员有必要分时段开展工作,根据图1走势线分布,笔者建议对民国时期巴渝著作文献的整理分为5个阶段:1)1912—1919年,民国成立到五四运动;2)1920—1935年,五四运后到川政统一;3)1936—1938年,川政统一后到国民政府迁都重庆前;4)1938—1945年,重庆抗战陪都地位的确立到抗战胜利;5)1946—1949年,抗战胜利后到中华人民共和国成立前。

从作者与出版机构两个角度出发,据图3可以看出,巴渝著作文献在作者中的分布规律与洛特卡定律有一致性,但在民国时期重庆特定的社会历史进程中,巴渝著作文献在作者中分布的走势线斜率低于洛特卡定律理想线。据图5可以看出,出版文献种数较少的范围内,与洛特卡定律的理想走势线有很强的一致性,但随着出版文献数量的增加,出版机构并没有因此而减少,而是继续保持一定的出版数量。

综上所述,民国时期巴渝著作文献在作者、出版机构中的分布与洛特卡定律有着一定程度的一致性,分布走势线都表现出了长尾的特征。因此,笔者建议从事文献整理与研究的工作人员将工作的重心放在处于尾部的作者和出版机构创作或者出版的文献,能够起到事半功倍的效果。本文用文献计量的方法探讨了民国时期巴渝著作文献的分布规律,为特色地方文献的整理与研究提供了思路。文章最后得出的结论之所以能够成立,还要依赖于《巴渝文库总目》所辑录的文献目录资料这个样本可以代表民国时期所有巴渝文献这个整体,样本与整体之间如果存在偏差,都会影响结论的准确性。本文的论断真实有效否,还需要在后面的文献整理与研究过程中加以考证。

猜你喜欢
洛特著作总数
柴文华著作系列
赵轶峰著作系列
杨泽波著作系列
李帆著作系列
丛林里的嗜血小恶魔
六大国有银行今年上半年减员3.4万人
《中国无线电管理年度报告(2018年)》发布
哈哈王国来了个小怪物
福尔摩斯·斑点带子(下)
舞惑