面向来华学历生的中文人文社科通用学术词表研究

2023-08-22 08:59王锋慧
安阳师范学院学报 2023年4期
关键词:词表词频覆盖率

王锋慧

(中国人民大学 文学院,北京 100872)

近年来,学历生成为来华留学生的主体(1)相关数据可参:http://www.moe.gov.cn/jyb_xwfb/gzdt_gzdt/s5987/201904/t20190412_377692.html。。由于存在“需要使用学术汉语撰写规范的学位论文”与“不能使用恰当的学术汉语词汇”之间的矛盾,来华学历生学习通用学术汉语词汇的需求大大提升。

通用学术词汇的存在可追溯到“英语作为外语(English as a Foreign Language,EFL)”的分类体系。Hutchinson和Waters将EFL二分为通用英语(General English,GE)和专门用途英语(English for Specific Purposes, ESP),前者服务于考试,后者服务于特殊目的[1](P16-19)。Jordan将专门用途英语(ESP)分为学术英语(English for Academic Purposes,EAP)和行业英语(English for Occupational Purposes,EOP),前者面向学术研究,后者面向工作;并进一步将EAP分为通用学术英语(English for General Academic Purpose,EGAP)和专门学术英语(English for Specific Academic Purposes,ESAP)[2](P3)。Hyland指出,通用学术英语是所有学科共有的技能、语言形式和学习活动,如阅读文献、写论文;专门学术英语则与特定学科下的技能和语言形式相关[3](P9)。类比EFL的分类体系,汲传波按照使用场合将汉语二分为通用汉语和专门用途汉语,认为“学术汉语属于专门用途汉语,主要指从事专业学习和学术研究所使用的汉语”[4](P78);张赪等将学术汉语进一步分为通用学术汉语和专门学术汉语[5](P20)。

针对“学生需要掌握哪些通用学术词汇”这一问题,英语学界的解决办法之一是构建通用学术词表。Coxhead建制的Academic Word List[6](下文简称AWL)及Gardner和Davies建制的Academic Vocabulary List[7](下文简称AVL)是英文通用学术词表的代表研究。张赪等指出“汉语学界尚未有学者研制出学术汉语词汇表”[5](P22)——尽管这一说法过于绝对,但相关研究确实不多。有鉴于此,本文通过收集不同学科的汉语学术期刊论文自建语料库,采用更完备的、定量与定性相结合的筛选标准,构建一份更加科学的中文人文社科通用学术词表。

一、研究对象及语料库建设

(一)研究对象

本文是在通用学术汉语的范围下研究“通用学术词汇”,目标是构建中文人文社会科学领域通用学术词表。理论上讲,通用学术词汇与通用一般词汇、专用学术词汇都存在交集,但下文的语料来源以及多重筛选标准的实施能够基本保证本词表所收词语满足以下两点:①更高频地出现在通用学术汉语;②相对低频地出现在日常用语。下文主要使用“词语”“词汇”“条目”“N音节成分”对词表所含内容进行称呼。

(二)语料库建设

为保证所选学科具有代表性,我们参考了《学科分类与代码》[9]以及《来华留学生简明统计2017》[10]中的学科分类,并与刘贞妤等[8]所选学科相交集,确定了十大学科(见表1)。为保证学术期刊的权威性和时效性,参考了《人文社会科学期刊AMI综合评价报告》(2018年)[11]对期刊影响力的评级和各期刊的复合影响因子,共选取了2018-2020年间的981篇期刊论文作为语料,总计约1000万字。

对获取到的语料进行转换、清理,然后使用CorpusWordParser(2)http://corpus.zhonghuayuwen.org/Resources.aspx。作为分词和标注工具,使用AntConc3.5.8统计各子语料库大小,数据结果如表1所示。

表1中的形符和类符将作为重要统计量参与下文的计算。“形符(token)”指文本包含的词语总数。“类符(type)”指不重复计算的形符数,即一个文本中重复出现的形符只能算作一个类符。

二、中文人文社会科学领域通用学术词表建制

上文提到的代表性英文通用学术词表之一AVL使用的筛选标准相对全面,包括“比率(Ratio)”“分布(Range)”“离散(Dispersion)”和“学科领域(Discipline)”[7](P313-323)。相比之下,中文通用学术词表的筛选标准相对简单,量化程度也不高。刘贞妤等声称采用了“频率”和“分布”,实际只详述了“频率”标准,对“分布”的表述十分模糊[8](P51-54)。张赪等人选取了人文社科和自然科学的学术语料,重点关注其中有限的虚词的使用特征,并未涉及大量的词语筛选,基本依靠人工就可以找出这些虚词[5](P19-27)。本文在Gardner和Davies的基础上进行调整,依次应用了不同标准建制“中文通用学术词表”。

(一)筛选标准

1.预筛选

表1的总类符数75 564是未经任何筛选的原始词表中的条目,其中大部分都可以通过一些简单的标准删去。首先,删除每个子语料库中带有字母和仅出现1次的条目,得到38 203个类符。随后,统计每个类符出现在几个子领域中。考虑到一个词语至少应在半数以上的学科中出现才可能具有均匀的分布,同时参考刘贞妤等 “每个词必须至少出现在8个学科”的标准[8](P52),本文设定一个词语应至少出现在7个学科,将38 203个类符大幅缩减至7 116个。此外,删除了经Corpus Word Parser标注后的助词、叹词、前接成分、非语素字、缩略语、拟声词、地名、机构名、数词、量词、数量结构、人名、姓,将7 116个类符进一步缩减至6 700个。

2.比率

Gardner &Davies使用了“比率”(Ratio,以下简称R1)这一筛选标准,其核心思想是:一个词语在学术语料库中的观察频率(observed frequency,即出现的次数,记作OF1)需要高于其在参照语料库中的期望频率(expected frequency,记作EF)[7](P314-316)。目的是清除高频通用一般词汇,得到高频通用学术词汇。某个词语a的期望频率为公式1(3)公式1是根据Gardner &Davies(2014)的叙述总结而来,原文并没有直接给出,下文公式2同。:EFa=(学术语料库大小/参照语料库大小)×OF2a×R1。

公式1中,学术语料库大小是研究者选取或自建的语料库大小,参照语料库多为通用一般语料库,二者相除的目的是进行标准化(normalization),得到学术语料库所占参照语料库之比;OF2a是词语a在参照语料库中的观察频率;R1是比率系数,根据实际情况确定其取值,没有固定标准。当且仅当OF1a>EFa,词语a才予以保留并进入到下一步筛选,否则不予收录。

本文采用公式1进行计算,各项取值如下:学术语料库大小近似看作十大学科的形符数之和,即6 377 707(见表1);参照语料库采用国家语委“语料库在线”网站中的现代汉语语料库,大小近似看作其词语总数12 842 116(4)数据来自网站http://corpus.zhonghuayuwen.org/index.aspx 。。理论上需要统计预筛选中6 700个词语在该参照语料库中的OF2和EF,但实际只能获得出现次数大于50次的“现代汉语语料库词频表”(下文简称“参照词频表”),无法保证这6 700个词语都能在“参照词频表”中找得到,所以会造成部分词语的OF2和EF无法统计。其中有5 401个词语出现在参照词频表中,可以计算OF2和EF,剩余1 299个词语的筛选将通过标准5完成。本文测试了1.1-2.0之间不同的R1值,最终确定R1=1.35。R1过高(2.0)会丢失诸如“发展”“按照”“保持”等通用学术词汇,R1过低(1.2)则会使一些通用一般词汇(如:爱、阿、别人)进入词表。

综上,我们统计了5 401个词语在学术语料库中的OF1,获得了它们在“参照词频表”中对应的OF2,代入公式1计算,以“发展”一词为例可得其期望频率为:EF发展=(6 377 707/12 842 116)×17 331×1.35=11 619.444 49,而“发展”一词的OF1=193 15>EF发展,因此可以作为备选进入通用学术词表。

3.分布

分布(Range)这一标准的目的是尽可能去除局部高频的词汇(一般多为专用学术词汇)。在尝试了多组不同的数据后,我们决定跟Gardner和Davies[7](P316)保持一致,认为在满足“比率”的前提下,一个词语应至少出现在7个学科,且该词语至少在7个学科下的观察频率(记作OF3)需高于其在对应学科下期望频率(记作EF’)的20%(20%同样根据实际情况确定),下文用R2表示(即此时R2=0.2)。词语a在不同学科下的EF’按照公式2计算:EF’a=EFa×(某一学科的语料库大小/学术语料库大小)×R2。“某一学科的语料库大小/学术语料库大小”是各子语料库占学术语料库的比例,EFa可由公式1求得,乘以R2便得到词语a在某一学科下的期望频率。

仍以“发展”一词为例,代入公式2得到该词在语言学、文学下的EF’分别为:

EF’发展=EF发展×(532 184/6 377 707)×0.2=193.915 5 (语言学)

EF’发展=EF发展×(518 624/6 377 707)×0.2=188.974 588 5 (文学)

“发展”一词在这两个学科下的OF3分别为982和418,均大于对应的EF’。同时,“发展”出现在十个学科中,经计算其他八个学科同样满足OF3>EF’(结果从略)。将出现在“参照词频表”中的5 401个词语逐一代入公式2进行计算,得到同时满足“比率”和“分布”标准的词语共2 803个。

4.离散

离散(Dispersion)指一个词语在语料库中的分布均匀程度,通常由0~1之间的小数表示,值越大表示分布越均匀。Gries指出,唯“频率”而不用“离散”筛选词语是不全面、不准确的[12](P100)。一个词语可能具有很高的观察频率,却因为仅出现在一个子语料库或一篇文本中,导致其分布很不均匀。

词语的离散值有多种计算方法,其中应用最广泛的是Juilland’D(简称“D”)[13]、DP[14],DA[14][15]也是常用的计算方法。Burch et al.比较了D、DP、DA三种方法后发现:对于同一个词,依据不同方法计算出的离散值不同,但始终存在D>DP>DA。Burch等人认为DP和DA比D更准确地反映了词语的分布情况,但并未说明DP和DA孰优孰劣[14](P210)。Gardner和Davies采用Juilland’D(即D)计算离散值,设定阈值为0.8,即D≥0.8才被视作通用学术词汇[7](P317),但他们没有尝试其他方法。本文则选用DP并设定阈值为0.5,即只有DP≥0.5的词语才可以进入通用学术词表。

对得到的2 803个词语应用DP≥0.5后,只有2 109个词语满足条件被进一步保留下来。

5.其他辅助标准

以上标准过滤掉了很大一部分词语,但存在遗留问题。一方面,经过预筛选保留的6 700个词语里有1 299个未出现在“参照词频表”中,尚未经任何筛选,其中同样可能存在通用学术词汇(命名为“Not-In-Reference”)。另一方面,我们同意Gardner和Davies“离散标准优于分布标准”的看法[7](P317),并认为“优于”(is superior to)可作以下两种理解:第一,“离散”比“分布”更能够保证词语分布的均匀性;第二,“离散”执行程度更严格,确定阈值后基本不再调整,但R1和R2却可以适当放宽。也就是说,经标准2和3过滤掉的2 598(5 401-2 803=2 598)个词语中有一部分(命名为“Re-Filter”)可通过适当调整R1、R2使其重新进入通用学术词汇。以下是这两部分词语的筛选方法:

(1)对“Not-In-Reference”词语的筛选。首先考察了这1 299个词语的DP值,同样令DP≥0.5;然后保证每个词语应至少出现在7个学科领域且在每个领域出现的次数不少于10次,得到符合条件的词语178个。

(2)对“Re-Filter”词语的筛选。这2 598个词语此前只应用了“比率”和“分布”两个标准,尚未计算离散值。经考察,其中有2 084个词语满足DP≥0.5(例如:DP否则=0.700,DP联系=0.903),它们可能仅仅因为观察频率略低于期望频率而被排除在外。因此适当下调R1至1.25,使得按照公式1、2计算后的EF和各学科领域下的EF’略微降低一些,同时保持R2和标准3中的其他阈值不变,保留了130个符合条件的词语。

6.人工筛查

以上共得到2 109+178+130=2 417个词语,其中单音节成分有294个,双音节成分有1 891个,三音节成分有175个,四音节成分有56个,四音节以上成分有1个。人工筛查的具体操作如下:首先,四音节以上成分直接删除。其次,三、四音节成分尽量保留分词工具直接切分得到的,对于短语或语块一般不作进一步切分,同时删除了“美国人、中国人、关键词、总书记”这四个词语,得到171个三音节和56个四音节成分。再次,对于1 891个双音节成分,基本保留出现在《现代汉语词典》(第7版)和汉典(https://www.zdic.net)中可以检索到的条目,删除了“北宋、父母、是以”等16个双音节成分(5)这些双音节成分,有的是典型的通用一般词汇(如:子女),有的用于古汉语(如:是以)。。剩余未在《现代汉语词典》和汉典中检索到的双音节条目,按照以下标准保留:(1)保留经分词工具标注为连词、介词、副词且在自建学术语料库出现≥200次的成分;(2)保留“X于”“X为”“X到”“X出”“X向”“X达”“用X”“来X”“亦X”“之X”(X为某一语素);(3)额外保留了“重构”“仅有”“相较”“预设”,它们在自建学术语料库的观察频率均≥200。至此,1 891个双音节成分缩减至1 803。最后,对于294个单音节成分,先保留标注后的连词、介词、副词;此外,学习者若掌握了能产性较高的语素,就可以更好地掌握由这些语素构成的词。因此如果一个单音节成分至少出现在5个已筛选出的双音节成分中,则该单音节成分能产性较强,予以保留。共得到127个符合条件的单音节成分。

(二)小结

综合以上筛选标准,最终确定本词表包含的总词语数为127+1 803+171+56=2 157个。将其命名为《中文人文社科通用学术词表》(Chinese Humanity and Social Science Academic Vocabulary List,简称CHSSAVL),参考《现代汉语词典》(第7版)[16]修正了个别标注错误的词类,其中包含951个动词性成分,713个名词性成分,232个形容词性成分和120个副词性成分,以上四类构成词表的主体,占总数的93.46%。此外还收录了54个连词、22个介词、21个代词、43个习用语和1个后接成分,占6.54%。

三、《中文人文社科通用学术词表》评估

(一)覆盖率检验

“覆盖率”是目前最常用的词表评估角度之一,指目标词表的所有词语在某一语料库中出现的观察频率之和占该语料库形符数的百分比。覆盖率(简称C)使用公式3计算:C=(目标词语在某一语料库中出现的观察频率之和/该语料库的形符数)×100%。实际操作中很难获取到某一语料库的原始语料及其形符数,但可以相对容易地获取到该语料库对应的词频表,因此可以将词频表中所有词语出现的频率之和近似看作该语料库的形符数。这一小节计算了CHSSAVL在几个不同类型语料库下的覆盖率,以验证该词表确实是通用学术词表而非其他性质的词表。

1.针对自建学术语料库的覆盖率检验

CHSSAVL全部2 157个词语在自建学术语料库下的覆盖率如下:

表2 CHSSAVL在自建学术语料库下的覆盖率

2.针对通用一般语料库的覆盖率检验

国家语委“语料库在线”网站中的“现代汉语语料库词频表”(即上文的“参照词频表”),其形符数可以近似看作一个通用一般语料库的大小,此处称作“现代汉语语料库”。检验CHSSAVL在该语料库下的覆盖率,结果如下:

该覆盖率(24.54%)明显低于基于自建学术语料库下的覆盖率(45.40%),说明本词表是通用学术词表,所收词语更多地出现在学术语料中。

3.针对BCC中非学术语料库的覆盖率检验

BCC语料库官网“下载”专区可供开放下载不同领域的词频表,我们选取了“微博”“文学”“新闻”“科技”四个领域的词频表作为非学术语料库,检验覆盖率得到如下结果:

表4 CHSSAVL在BCC非学术语料库下的覆盖率

表4显示CHSSAVL在以上语料库中的覆盖率均明显低于自建学术语料库下的覆盖率(45.40%),再次验证了本词表是“通用学术词表”。而CHSSAVL在以上四个领域的覆盖率依次递增,说明越接近学术语体,本词表的覆盖率越高;反之,越接近口语或与学术语体相差较大的文本集合,覆盖率越低。

(二)《中文人文社科通用学术词表》与《HSK考试大纲》《标准》所收词汇之间的对比

对比CHSSAVL与《HSK考试大纲》[17](以下简称《大纲》)所收词汇后发现,有1 202个未被《大纲》收录,说明学习者即使掌握了《大纲》的全部词汇,仍有55.73%(1 202/2 157)的通用学术词汇未能得到学习。对比CHSSAVL与《国际中文教育中文水平等级标准》[18](以下简称《标准》)所收词汇后发现,即使《标准》在《大纲》基础上增收了大量词汇,仍有506个CHSSAVL中的词语未被《标准》收录,约占23.46%(506/2 157)。

四、结语

本研究提供了一个相对完整、可复现的中文人文社科领域通用学术词表建制过程,并对其进行了评估,主要结论如下:第一,依次通过不同筛选标准得到了包含2 157个词语的《中文人文社科通用学术词表》,其中动词、名词、形容词和副词性成分是词表的主体,占总数的93.46%。第二,CHSSAVL在自建学术语料库中的覆盖率高于其在通用一般语料库和各种非学术语料库中的覆盖率,说明该词表确实是通用学术词表而非其他性质的词表。第三,《大纲》和《标准》中的词汇分别涵盖了CHSSAVL所收词汇的44.27%和76.54%,仅学习通用汉语教学的词汇大纲难以满足来华学历生学术写作需求。

猜你喜欢
词表词频覆盖率
民政部等16部门:到2025年村级综合服务设施覆盖率超80%
基于词频分析法的社区公园归属感营建要素研究
我国全面实施种业振兴行动 农作物良种覆盖率超过96%
A Chinese-English List of the Sports Programmes in Winter Olympics 冬奥会项目名称汉英对照词表
叙词表与其他词表的互操作标准
基于喷丸随机模型的表面覆盖率计算方法
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
基于覆盖率驱动的高性能DSP指令集验证方法