《中国分类主题词表》(Web版)学科主题词相关问题探析

2019-08-22 06:20国家图书馆
图书馆理论与实践 2019年7期
关键词:标引类目外文

孙 迪(国家图书馆)

《中国分类主题词表》(Web版)(以下简称《中分表》)通过互联网提供词表浏览、检索和数据下载服务,提供B/S模式的图书馆业务支持,并能与OPAC进行对接。[1,2]《中分表》知识组织系统与服务平台相关的建设还在不断完善中,其自身尚存在需要规范化的细节问题。本文以学科主题词为切入点,对《中分表》主题词编制相关的问题进行总结与分析,并提出维护建议。

1 学科主题词相关的一般问题

《中分表》收录的主题词从构成上分为两大类:名称主题词、学科主题词。与学科主题词相关的一般问题包括术语的命名、著录问题,外文单纯参照词问题,同义词以及主题词的更新等。

1.1 命名与著录问题

1.1.1 命名问题

主要涉及部分主题词相关科学术语的命名问题,这与词表本身的滞后性有关。如:“丛枝菌属”应更新为枝瑚菌属;[3]“藤属”应更新为省藤属。[4]此类命名问题已经对“丛枝菌根真菌”以及“藤本植物”相关文献的编目标引工作产生了干扰,应及时纠正。

1.1.2 著录问题

《中分表》存在部分学科主题词的著录错误,分为以下几类。

(1)一般性错误。主要体现为字符的误写,如:“植物病源真菌”应为植物病原真菌、“柯达德测距测苏率系统”应为柯达德测距测速率系统、“喷吐机器人”应为喷涂机器人。

(2)表外字相关问题。部分主题词中的汉字为表外字,由此产生一些误写问题,如:“鴙形目”,鴙应为 (共鸟)(音 gong);[5]“(蚲)属”,(蚲)应为 (鼠平)(音ping)。另有部分表外字以■显示且未加注释说明,如:“苯二氮■”与“苯甲二氮■”,应注以“■字形为(艹卓)”的说明。

(3)习惯性误写问题。个别主题词含有罕见字,并伴随有其他形式的误写,如:“泻湖”是潟湖的习惯性误写。[6]

1.2 外文单纯参照词问题

整体上看,《中分表》学科主题词的外文单纯参照词是外文术语与英译名的混合体,目前的版本存在部分错误;虽然不影响检索等应用,但考虑到词表关联性的发展,对于该问题应予以重视。

1.2.1 参照词的拼写问题

(1)著录错误。部分学科主题词的外文单纯参照词著录存在问题,应予以仔细梳理。如:“热工测量”的外文参照词Fhermal measurement有误,应为Thermal measurement;“新石器时代考古”的外文参照词Niolithic archaeology有误,应为 Neolithic archaeology;“模拟试验台”的外文参照词Simulator stants有误,应为Simulator stands。

(2)参照词不完整。部分主题词的外文单纯参照词存在不完整的现象,如:“肉毒杆菌”的参照词的完整形式应为Clostridium botulinum而非Clostridium,“胰腺癌”的参照词的完整形式应为Pancreatic cancer而非 Cancer。

(3)术语调整导致的问题。部分参照词相关的科学术语进行了调整,《中分表》仍沿用过时术语,应予以纠正。如:“啮虫目”的参照词应更新为Psocoptera,替换 Corrodentia;[7]“绿豆”现已从菜豆属(Phaseolus) 分离,归入豇豆属 (Vigna),[8]其参照词应更新为Vigna radiata,替换Phaseolus radiatus。

1.2.2 参照词的混用与不规范使用

(1)外文参照词的混用。如:“冲压机”的外文参照词为 Punching defect,应修改为 Punching machine,原参照词应与“冲压缺陷”对应;“衡量指标”的外文参照词Aviation industry应与“航空工业”对应;“朊病毒”的外文参照词为Wikipedia(实为维基百科的英文),应修改为Prion。

(2)外文参照词的不规范使用。如:“后评价”规范的外文参照词应为Post valuation而非Behind valuation;“自然美”规范的外文参照词应为Aesthetics of nature而非Natural beauty;厄尔尼诺规范的外文参照词应为El Nin~o而非拼音Eerninuo。

(3)生物名称类参照词的规范问题。在《中分表》收录的生物名称类主题词中,部分参照词采用英文俗称而非相应的拉丁学名,建议按照国际惯例进行替代。如:“红厚壳”的参照词应采用Calophyllum inophyllum,替代Alexandrianlaurel;“对虾属”的参照词应采用Penaeus,替代Prawn。

1.2.3 参照词的错义重复问题

由于混用、错用等原因,部分主题词外文参照词出现了重复,如:“可燃液体”的外文参照词Flammableliquid有误,与“易燃液体”相重,应修改为Combustible liquid;[9]“建筑业”的参照词Building enterprises有误,与“建筑企业”相重,应修改为Building industry;“光学计量”的参照词Optical measurement有误,与“光学测量”相重,应修改为Optical metrology。[10]

1.3 同义问题

《中分表》收录的学科主题词存在同义现象,由此产生的冗余信息不利于词表的健康发展,也会给文献资源的书目控制带来影响。究其原因,多数是由于对外文术语不同中译名的识别不够准确,亟需统一化处理。

1.3.1 同一类目的同义词对

对应同一类名/类号的具有共指性的学科主题词,可分为两类。

(1)词形相近。如:“葡萄糖苷酶”与“葡糖苷酶”的外文参照词均为Glucosidase;“电流体力学”与“电流体动力学”的外文参照词均为Electrohydrodynamics。

(2)词形有异。如“空腔流动”与“空泡流”的外文参照词均为Cavityflow。

对于上述同义词对,应采取合并处理的方式,并在相关款目参照关系项中以“代/用”关系标识。

1.3.2 分属上下级类目的同义词对

分别对应于上、下级类名/类号的具有共指性的学科主题词,亦可分为两类。

(1)词形相近。如:“作用力与反作用力定律”对应类号O3(力学),“作用与反作用定律”对应类号O301(牛顿定律、达朗伯原理),两者的外文参照词均为Action-reaction law;“远程教育”对应类号G43(电化教育),“远距离教育”对应类号G434(计算机化教学),两者的外文参照词均为Distanceeducation。

(2)词形有异。如:“cc材料”对应类号TB33(复合材料),“碳/碳复合材料”对应类号TB333.2(非金属基复合材料),两者的外文参照词均为Carbon-carbon composites;“利埃纳尔方程”对应类号O175(微分方程、积分方程),“林纳方程”对应类号O175.1(常微分方程),两者的外文参照词均为Li佴nard equation。

对于上述同义词对,应采取合并处理的方式,并在相关款目参照关系项中以“代/用”关系标识,同时酌情删除/保留上下级类目的类号。如:

远程教育

Distance education

G43;G434

D远距离教育

1.3.3 跨类目、大类的同义词对

有些同义词对会涉及不同的类目(非上下级关系)、大类,词形也有一定差异,故需认真辨别、处理。

(1)跨类目同义词对。如:“脉冲发生器”对应类号TN782,“脉冲信号发生器”对应类号TN914.2与TM935.4,两者的外文参照词均为 Pulse generator;[11]“数据采集系统”对应TP274+.2与TP311.13等类号,“数据获得系统”对应类号TP752.1,两者的外文参照词均为Dataacquisitionsystem。

(2)跨大类同义词对。如:“聚木糖酶”对应类号TS743+.14与TS745,“木聚糖酶”对应类号Q556+.2,两者的外文参照词均为Xylanase;“Liapunov指数”对应类号O175.13,“李雅普诺夫指数”对应类号F830.9,两者的外文参照词均为Lyapunovexponent。

对于上述同义词对,除采取合并处理的方式并在相关款目参照关系项中以“代/用”关系标识外,应建立跨类目、大类的类号互见标识。如:

木聚糖酶

Xylanase

Q556+.2;|TS743+.14|;|TS745|

D聚木糖酶

此外,个别同义词对应的类号缺少专指性,应作相应修正。如:“T细胞”与“T-淋巴细胞”的外文参照词均为T-Lymphocytes,前者的对应类号为Q24(细胞形态学),专指性不强,建议以淋巴细胞的对应类号Q954.56+7替换。该同义词对可作如下处理:

T-淋巴细胞

T-Lymphocytes

R322.2;|Q954.56+7|

D T细胞

1.3.4 “多对一”关系的同(近)义词对

《中分表》中存在“多对一”关系的同义词对,如:“腺嘌呤核苷3'5'环化磷酸”“环腺苷酸”与“环磷酸腺苷”,三者共指向Cyclic adenosinemonophosphate(cAMP);“动态性能”“动力性”“动力特性”“动特性”等主题词的外文参照词为Dynamic characteristics或Dynamic properties,意义相同或相近。均应进行去冗余化处理。

1.4 学科主题词的更新问题

《中分表》规模较为庞大、编制时间较长,随着各学科领域的飞速发展,一些学科主题词也面临着“与时俱进”的问题。为保证《中分表》的时效性,应该有针对性地加大陈旧性主题词的更新力度。对于一些利用率低且有歧义倾向的主题词应予以剔除,并以更为常用的形式代替。如:“水花”(对应类号X522(河流污染))应以“水华”替换;“群架”及相关主题词(对应类号O187(代数几何))应以“群概形”及相关术语替换。[12]对于一些使用频次较高的入口词、关键词,应加快其主题词化的转换速度。下表展示了两组共指性检索词在国家图书馆博士学位论文书目数据库的使用频次,可以看出,关键词“几丁质酶”与“转座子”在CNMARC 6XX字段的出现次数较相应的主题词更多、使用频次更高,建议分别替换之。

表 共指性检索词使用频次对比

此外,《中分表》还应根据具体学科、专业的发展动态提高“新词”的引入比例(同时调整相关类目结构),特别是文献数量多且缺乏规范控制的关键词。以“生物信息学”为例,通过所有字段检索(辅以文献类型限定),在中国图书馆OPAC中可查询到1,128条图书与博士论文书目记录,多数以受控词“生物信息论”进行主题标引。而事实上,这涉及到两个相对独立的概念,不可混淆。因此,建议《中分表》将“生物信息学”增补为学科主题词的同时添加相应类目,便于相关文献组织与管理的规范化。

2 学科主题词相关的其他问题

2.1 类号问题

作为揭示和组织文献的一种工具,分类号与主题词的有机结合可以有效增强文献资源的书目控制。

2.1.1 类目缺项问题

《中分表》中的个别类目存在类号(类名)缺失现象。如:“埃塞俄比亚抗意战争”对应类号K421.52(意阿战争 (1935-1936)),缺少同位类号(类名)。历史上发生了两次意阿战争,第一次为1895-1896年。[13]在有史可稽的情况下,不应拘泥于“文献保证原则”,建议直接增加同位类号K421.51,同时将相关类名分别修正为第一次意阿战争与第二次意阿战争。

2.1.2 缺少类号互见

适用于不同类目的主题词缺少互见类号,如:“唾液酸”对应类号Q481(口腔内的消化类目),其从属“糖酸”,故应增加碳水化合物类目相关的互见类号Q53与O629.1;“瘢痕疙瘩”对应类号R619+.6(外科并发症类目),其从属“皮肤病”,应增加相关的互见类号。

2.1.3 类号错置问题

《中分表》部分主题词对应的分类号存在错置现象,除著录导致的错误外,更多的涉及知识结构问题。

(1)误写的错置。如:“质体基因”对应类号O343.1,属著录错误,应改为Q343.1(基因理论类目)。

(2)上下级类目的类号错置。如:“硝化细菌”对应类号Q939.11+1(硝化杆菌类目),而硝化杆菌实为硝化细菌的一个类群,应将后者归入上位类,建议类号修改为Q939.1。

(3)跨类目、大类的类号错置。此类错置问题会影响文献分类标引及相关的规范控制,应加大核查力度,进行严格的甄别、处理。① 跨类目类号错置。如:“毒死蜱”对应类号TQ455.4+3(有机杀菌剂类目),实属有机磷杀虫剂,应改为TQ453.2+2;“甲基环氧乙烷”对应类号O623.623(羧酸酐类目),实为一类环氧化物,应修改为O623.42+5。② 大类类号错置。如:“目连戏”对应类号I207.3(戏剧文学类目),实属中国地方戏剧种,建议变更为J825;“高温超导材料”对应类号TB35(耐高温材料类目),实属超导体范畴,建议变更为TM26。

(4)资料类分的类号错置。此类错置不会影响普通图书的分类标引,但在对其他学术资料详细复分时会产生影响。如:“楝科”对应类号+Q949.753.1(牻牛儿苗目),其现已归属无患子目,应作相应调整。

2.1.4 类号致歧问题

有些主题词的概念涉及多个范畴(类目),但目前在《中分表》类号设置中常被忽视,这会在主题与分类标引工作中引发歧义性问题从而导致错误标引。如:“刺参”对应类号S567.5+3,属于药用作物,另有同名的海参纲动物种,为避免由于歧义导致的标引错误,建议增加类号Q959.269,同时添加/修改相应的类目注释;“浒苔”对应类号Q914.82,属古藻类,另有同名绿藻纲丝藻目的现生类群,建议增加类号Q949.21+3,同时添加/修改相应的类目注释,从而避免由于歧义导致的标引错误。

2.2词表微结构——以主题词款目框为例

《中分表》由宏观结构(主表、通用复分表)和微观结构(主题词款目框、分类款目框)组成。本文以主题词为切入点,对于主题词款目框相关的微结构类问题进行简要分析。

2.2.1 参照关系项的内容设置问题

主题词款目框参照关系项包括:用Y、代D、属S、族Z、参C等,《中分表》部分主题词存在上下位词、用/代等内容设置有误的现象。

(1)上下位词的设置问题。如:“氢解”是与“氢化”具有相关性的一类化学反应,不具从属关系,[14]建议删除其现有S关系词,调整为C氢化;“珊瑚菌科”的直接下位词设置有误,“丛枝菌属”(即枝瑚菌属)已并入钉菇科,[15]建议进行调整。

(2)单纯参照词的设置问题。即错误或不合理的用/代关系的设置。① 同位类关系的替代。如:Y“虎耳草科”、D“绣球科”,两者同属双子叶植物纲类目,各自具有分类学地位与独立的检索意义,不可相互替代。② 跨类目关系的替代。如:“幽门螺杆菌感染”与“幽门梗阻”“幽门狭窄”同被设置为“幽门疾病”的单纯参照词,而前者属“螺杆菌感染”,涉及到不同的类目,应避免过于笼统的处理。③ 上下位词的替代。如:“免疫响应”“免疫调控”“免疫分型”等词均为免疫学范畴术语,在《中分表》中俱以“免疫学”替代,将会影响相关学术文献内容揭示的准确性与专指性。

2.2.2 微结构设置相关的概念问题

《中分表》基于概念匹配的理念构建,在词表结构设置上充分考虑到了语义的关联性;但在某些微结构的概念设置方面应更加注重科学性。如:“猪科”对应的是动物分类学概念,当前款目框设置显示其直接下位词“猪”,并与猪在畜牧学方面相关的下位词进行了直接关联。本文建议从动物分类学的角度出发,对猪科的下位词进行重新调整(增加相关属、种的主题词等),以保证相关概念匹配的科学性与严谨性。

3 维护建议

叙词表的进一步规范处理需要借助自动分词词性标注、新词发现、信息抽取、自动聚类等中文本体信息处理的最新方法和技术。[16]但在相当长的时间内,以《中分表》为代表的叙词表的修订与维护工作仍然离不开人工方式。鉴于此,笔者提出几点《中分表》的维护建议。

3.1 信息组织工作人员的个体素养

除应保持职业敏感度、树立认真踏实的工作作风、持续更新相关知识与技能以适应不断发展的信息组织工作的需要之外,作为个体的编目、标引人员或是规范制作与维护人员,在《中分表》的使用与管理过程中应更加注重与自身专业特点相结合,能够运用本专业领域的知识“锁定”相关问题,并能善于总结、勤于归纳,为今后的聚类分析及数据的智能化处理提供经验与借鉴。

3.2 信息组织不同工作团队间的协作

《中分表》管理与维护工作的良性运转有赖于与信息组织工作相关的各个团队间的协作,因此,高效的沟通与回馈机制是不可或缺的。以文献标引为例,不同类型文献的标引工作组对于文献标引深度、广度的要求不一样,这就要求与数据/规范维护相关的工作组及时沟通,后者进行相应的规范化处理后应及时将修正结果反馈至所有标引工作组,以避免可能引发的主题/标引错误;对于已经引发的主题/标引错误,数据/规范维护工件组在规范化处理后应结合实例通告相关标引工作组,以保证未来书目控制的质量以及《中分表》的使用效度。

3.3 相关的知识共同体的合作

《中分表》的编制与修订是一项涉及各个学科领域的庞大工程,疏漏之处在所难免。虽然已有业内人士分析、总结《中分表》存在的问题,国家图书馆《中国图书馆分类法》组委会也会不定期发布相关修订表,但由于种种原因,《中分表》中需要规范化的细节依然很多,尤其是其滞后性的一面亟需改变。因此,除了在文献组织与管理行业内部不断加强合作外,还应促成《中分表》相关的所有知识共同体间的更为广泛与深入的合作。《中国图书馆分类法》组委会应与各学科领域的学术委员会及相关机构建立高效的共建机制,从具体领域入手,就主题词及类目与结构的调整等方面制定详细的准则并付诸实施,缩短相关类目的修订周期。同时,本着开放关联的原则,应积极吸纳国内外在主题规范领域的研究成果(如全国科学技术名词审定委员会发布的“术语在线”、国会图书馆主题规范的关联数据服务等),不断完善《中分表》知识组织、知识检索、学科导航与实时更新的功能。在此基础上,《中分表》与其他叙词表及相关服务体系在语义与功能上的集成应该是未来的探索方向。

猜你喜欢
标引类目外文
中医古籍医案知识元标引方法的思考及对策
外文字母大小写的应用规则
本期练习题类目参考答案及提示
CLC与LCC类目同现映射方法研究
——以图情领域为例*
档案主题标引与分类标引的比较分析
《中图法》(5版)“K历史、地理”大类的修订
《中图法》(5版)“R医药、卫生”类修订探析
外文局期刊目录
对“外文字母”的看法
林则徐与外文情报翻译