受控词表索引的一致性概述

2017-11-25 05:42朱秋霞

长江丛刊 2017年7期

朱秋霞

受控词表索引的一致性概述

朱秋霞

通过对期刊论文使用受控词表研究，用于检查取得叙词列表的稳定性是否高于或等于标准主题分类词汇表和扩充主题分类词汇表的一致性。用图书情报学的专业方法,建立叙词列表和标准主题分类词汇表和扩充主题分类词汇表（所有的叙词都做了范围注释）的等价关系。Hooper的研究会发现索引新手和引用专家之间的一致性。在这两个群体中的叙词列表更好反映了的索引的一致性，但需要更多的研究。

受控词表主题词表

在组织和检索信息的过程，受控词越来越重要。在这一领域中做出最重要贡献的是吉尔•莱瓦，此领域内很多贡献都是来自他。第一次贡献的是Charles Ammi Cutter 1876年出版了著名的《Rules for a printed dictionary catalog》[1]。这一本关于规则的书对现在仍有影响，例如经济原理，对主题词的使用都有定义，使用的地点，方式，主题词的同义词和反义词重现，同音异义的问题，主题词的结构（简单和复杂），词语倒置，语法（See, See also, etc.)，标点符号（逗号，括号等）。

第二个贡献是构建主题词列表。Cutter发表了他的作品后不久，美国图书馆协会（ALA）在1895年出版了《List of Subject Headings for Use in Dictionary Catalogs》，为没有专业馆藏的中小型图书馆提供了标引工具。1909年，首次出版的《Subject Headings Used in the Dictionary Catalogs of the Library of Congress》主要参考了上述文献[2]。虽然曾为美国国会图书馆的编目员内部使用，但它很快成为用于大型公共图书馆和大学图书馆的索引参考工具，它被翻译成其他语言，完全或部分应用于其他的国家，例如，巴西（1948年），加拿大（1967年），希腊（1978年），南非（1992年）和埃及（1995年）等等。

第三个贡献是来自Mooers，在20世纪50年代开始引进“主题词”的想法，所以长时间在文档中做特定术语的使用，在信息检索方面作特定主题信息。随后是构建了第一个叙词表和第一个主题词表，如杜邦主题词表（工程信息中心Du Dupont 1959），ASTIA主题分类词表（美国国防部，1960），化学工程主题分类词表（美国化学协会，1961年）等等。

第四个贡献是国家和国际准则条例。此领域起源于法国，1957年法国AFNORŽ44-070提出了Catalogue alphabétique de matières，为建立和提供的主题词的选择和编排规则做出贡献。规范叙词表是法国的AFNOR Z 47-100-1973（标准检验。Regles的ETABLISSEMENT叙词表monolingues），ISO 2788-1974（文档编目，单语叙词表的建立和发展指南）和ANSI Z39.19-1974（美国国家主题词结构，构造和使用标准指南）。此后，其他国家和ISO本身都在致力于扩展此项标准,直到ISO 2788-1986 和 ISO 5964-1985统一成新的ISO/DIS 25964-1:2010（信息和文献--叙词表和其他词汇互操作性的统一（第1部分：用于信息检索的叙词表，第2部分：与其他词汇的互操作性）。

在此领域内，专业人员和研究人员非常重视受控词的评定问题。可以根据分析的目的和受控词表本身进行评定，从而研究它们的结构，专题领域或方面，范围注释，语义关系，特异性程度等（内部评估），或研究索引和检索的使用对信息系统的影响（外部评价）。

在Cranfield项目中Cleverdon第一次引入评估（1956年，1960年等）。Cleverdon比较了一般的十进制分类法，按字母顺序排列的主题索引，刻面分类法体制，和由三个索引器分析18000文档的单元词索引之间的效率。对评定限定词汇，标题和主题词表有许多不同的后续研究。例如，菲德尔• 亨茨勒（1978年）（1991年和1992年），Betts和Marrable（1991），里贝罗（1996年），吉尔Urdiciaín（1998年）和格罗斯和泰勒（2005年），他们对自然语言和限定语言在索引和检索文件的优点和缺点做出研究。

评定受控词的另一种方法是与主题词相互比较。Kishida等研究者在1988年比较了MeSH（医学主题词表），的ERIC主题词表，INSPEC和主题词根表等等，并作为他们引用，构建信息的准则。与此相反，温伯格和Cunningham（1985）研究的语义接近MeSH 和 Medline所研究的范畴，而Pozhariskii（1982）提出了量化的能力或语义强度在主题词表方面的灵活性，经济性和普遍性。此外，拉尔森（1988年）分析了主题词表在索引某一馆藏文献是发挥的力量。Soler Monreal（2009）评三大受控词表（叙词列表，标准的主题词表和扩充主题词表，所有的叙词进行范围注释），如果叙词列表获得一致性的分数高于标准主题词表和扩充主题词表，则叙词列表胜出。

索引的一致性，可以为研究一个或几个索引作为参考。当一个专业的指标相同的文件在不同的时刻，我们讲的是内部一致性或索引器内部的一致性。当比较几个人索引一个文件的结果或者比较两个索引器索引一个文件的结果是时，我们讲的是索引间的一致性或索引器间的一致性。

自20世纪60年代以来，对索引的一致性已开展了多种多样的调查。从这些测试中可以得出的主要结论是不一致性是是索引的固有特征，而不是偶然的异常。虽然他们进行的测试的方法有很大不同，但是我们可以说，实现索引的一致性范围大约是10%至60%。从1960年到现在为止，因为使用的测试方法的多样性，所以大量进行实验不能同质化。在以后的研究发现中,我们会找出更多阻碍他们的同质化的变量和测试能够进行的样品。

[1]Bertrand,A. & Cellier, J.M.Psychological approach to indexing: effects of the operartor’s expertise upon indexing behaviour[J]. Journal of Information Science, 1995,21(6):459~472.

[2]Fidel, R.Who needs controlled vocabulary?[J].Special Libraries,1992:83(1):1~9.

（作者单位：武警警种学院）

朱秋霞（1988-），女，河南周口人，硕士，助理馆员，研究方向：图书馆信息化建设。