论电子词典的分类

2018-04-02 08:57王俊
辞书研究 2018年2期
关键词:电子词典词库

摘 要 文章主要探讨电子词典的定义与分类,并针对各种不同类别的电子词典列举典型案例及其发展,试图厘清电子词典的概念及各种电子词典的现状,作为电子词典进一步研究的基础,供词典行业从业者包括作者、编辑、内容提供商、平台提供商、硬件生产商等参考。

关键词 电子词典 硬件类电子词典 软件类电子词典 词库

说到电子词典,可以说是广大读者耳熟能详的一个词语,但是究竟什么是电子词典,恐怕很多人并没有一个明确的概念。价值数百乃至数千元的快译通、卡西欧是电子词典,那么收录词典数据并可以在电脑或其他设备上查询的一张光盘、一个App算是电子词典吗?如果答案是肯定的,那么一个可以查询单词释义的网页,乃至微信公众服务号,又可以算是电子词典吗?

正如词典是图书的一种,所谓的电子词典,应该说是属于电子书中比较特殊的一类。关于电子书,有人给出了这样的定义: 电子书是一种结构化的字节的组合,它可以被保存到CDROM或者其他存储媒介中,也可以通过网络传输,它的最终设计目标是能够通过某种硬件和软件的结合体得以浏览,从而阅读,这种软硬件的结合体可以是终端,可以是个人电脑上安装的Web浏览器,也可以是新型的电子书阅读器。(聂华2005)电子词典具备电子书所有的特性,在此基础之上还有一些不同于一般图书的特点。例如词典的功能不仅仅是浏览阅读,或者说主要不是浏览阅读,还有更重要的查询功能,也就是它作为工具书的属性,这一点反映在电子词典上,也造成了电子词典不同于一般电子书的特征。

笔者查阅了相关文献有关电子词典的各种定义,并從自己的感受出发,认为以下定义比较符合实际情况: 各种面向普通用户的电子词典(以下简称“电子词典”)指以硬盘、光盘、磁盘或芯片等作为存储介质,并借助微型处理器及相关计算机、网络等技术将信息呈现于个人电脑、个人数字助理机、微型芯片电子词典、电子书阅读器、智能手机、平板电脑等终端屏幕上供普通用户使用的词典。(戴远君,徐梅2014)需要说明的是,本文所探讨的电子词典,不包括用于机器翻译与自然语言处理的机读电子词典。

按照这个定义,除了拥有实体的卡西欧等袖珍电子词典之外,光盘、App都可以算是电子词典,而网页和微信公众号,只要所存储和提供查询的是经过正式出版和授权的词典数据,也可以算是电子词典。当然,如果网页和微信公众号所传播的仅仅是个人或集体的、未经正式出版的作品,就不能算是电子词典了。简而言之,电子词典就是一种利用计算机及相关技术把信息呈现于屏幕上的工具书。(Hartmann & James2000)其基本原理是把用文字、图形、图像、声音、活动图像等媒体形式表达的信息内容转化为二进制数字编码,并利用磁、光、电可相互转换的原理,储存在磁、光、电介质上,使用时通过逆向的解码过程将数字编码还原成原媒体形式的信息。如果抛开载体不论,我们发现,电子词典实际上是由语言数据、相关语料和语言处理技术构成的超文本语言文字信息框架。以实质而论,电子词典包含了关于语言应用的普通知识和形式化语言处理技巧,是一个机器可读的自然语言知识库。(章宜华2013)只要符合这样的实质,光盘也好,App也好,其他形式也好,都只是外在的表现形式。这些各不相同的外在形态,也正好体现了电子词典各种不同的类别。

通常,电子词典大致分为两类。分别是硬件类电子词典与软件类电子词典。

一、 硬件类电子词典

所谓硬件类电子词典,是词典数据存储在特定的芯片中,只能用制造商开发的硬件设备进行查询的电子词典。软件在这里是被固化在硬件设备之中的,一般来说系统没有多少可以自定义的空间。这也是人们通常理解中的电子词典,包括快译通、文曲星、卡西欧等众多品牌。内置了词典数据的点读笔也可以算是这一类电子词典。值得一提的是,在2010年横空出世的辞海悦读器,是由出版机构推出的内置词典数据的阅读器。(余传诗2010)因为其词典数据除了该硬件之外不能用其他方式读取和利用,从定义上来说也属于硬件类电子词典。

二、 软件类电子词典

除了必须使用特定硬件的芯片型电子词典,还有更多电子词典并不需要专门的硬件设备,而是可以在个人电脑、平板电脑、手机、通用电子阅读器等设备上进行查询及各种操作,可以称为软件类电子词典。

这类词典还可以依据不同的分类方法进一步细分。

(一) 按照设备(平台)的不同分类

按照支持设备的不同,可以分为个人电脑词典、手机词典、平板电脑词典、电子阅读器词典等,当然也有跨多个平台的电子词典。

这些词典更可进一步细分为本地词典和网络词典,前者不需要联网即可实现阅览和查询,后者则必须联网方可实现。

在本地词典中,还可以按照存储介质的区别进一步分类,比如个人电脑词典中曾经单独列为一类的所谓光盘电子词典,典型的有《微软书架系列词典》(Microsoft Bookshelf)、《牛津英语词典》(Oxford English Dictionary)、《广辞苑第六版DVDROM版》等。但其实这样的分类没有太大的意义,因为这些词典当时发行的时候虽然采取了光盘的形式,但一方面大多可以通过安装程序将全部内容拷贝至硬盘,使用时可以脱离光盘;另一方面随着存储介质的进化,现在还采用光盘形式发行的已经越来越少了。如果说有光盘电子词典这个种类,似乎还可以有存储卡电子词典、移动硬盘电子词典、下载型电子词典等。并且,不少光盘还可以将词库安装至手机等移动设备,就更加难以分类了。

网络词典则是本地没有词典数据,必须联网方可查询的电子词典。这类词典也可以分为两类: 一类是带有专用程序的,可以通过专用程序连接网络数据库,例如韩国Naver词典,可以在手机上安装相关App直接查询,当然使用时必须联网。另一类则是没有专用程序的网页形式,看上去似乎更为简陋,每次使用必须通过浏览器登录网页,不如专用程序方便。当然若要为其定制一个专用程序,也并不是一件难事。

(二) 按照是否需要另行安装分类

根据词典是否需要用户手动安装的不同,可以分为不需要安装的内置型电子词典和需要另行安装的自定义电子词典。

内置型电子词典是个人电脑或其他设备系统自带的词典程序,不需要使用者另行安装。这种词典在各种便携设备上比较常见,往往与系统深度结合,使用起来特别方便。例如iOS中文系统内置了《现代汉语规范词典》和《牛津英汉汉英词典》等词典,使用者不必进行任何设置,即可在任意程序中选择中文或英文文本,在选中后出现的菜单中选择“定义”,即可查询到该词的中英文释义。如果使用者为系统添加日语输入法,则内置词典会自动增加《Super大辞林》《Wisdom英日日英词典》等日语相关词典。又如Kindle设备自带了《现代汉语词典》《现代汉英词典》《现代英汉词典》等11部官方词典,可以在阅读任何图书时即时查询。在个人电脑上,Word也有自带的词典,虽然第一次使用可能需要安装,但也可以算作内置型词典之一。

而自定义电子词典则是系统本来没有的,使用者必须另行安装词典程序。例如带有安装程序的光盘词典、可在软件商店免费或付费下载的App等。这也是现在一般意义上所谓的电子词典软件的概念。其实对于懂一些技术的词典使用者来说,内置型的词典有的也可以深度定制,例如iOS中可以自行下载其他语言的词典,Kindle设备中另行购买或定制的词典也可以加入系统字典中。

(三) 按照词库的性质分类

按照词库性质的不同,张杜一雄(2009)将智能手机词典分为以下三类: 词库开放型、词库捆绑型和词库联网型,这种分类标准不仅适用于手机词典,也可以推广到所有的电子词典上。这种分类标准其实是将电子词典分为了主程序和词库两个部分,前者是用来查询的工具,后者则是用来查询的数据库。词库开放型由一个主程序加多个独立词库构成;词库捆绑型由一个主程序加一个(或几个)捆绑的词库构成;词库联网型则仅有一个主程序或没有主程序,词库必须通过主程序或网页浏览器连接网络查询。按照这种分类方式,其实硬件类电子词典也完全可以归入词库捆绑型电子词典。而在软件类电子词典中,不难看出,词库开放型和捆绑型都属于上文(一)中所提到的本地词典,词库联网型则相当于网络词典。

1. 词库开放型电子词典

词库开放型电子词典是制定一个词库的标准,由出版机构、研究机构、内容提供商、个人等将自己的数据打包为符合该标准的词库,可配合专用的主程序进行查询,因为词库标准公开,甚至允许软件开发者自行开发词典主程序以实现更多功能。其主要特征是平台通用性好、可多词典查询、定制性强,应该说是电子词典中功能最强,资源最多,用户最广,最能代表电子词典发展趋势的。(卢华国,张雅2010)

词库开放型电子词典最成功的例子应该说是日本的EPWING格式電子词典(及相似规格的EB、SystemSoft格式电子词典)。自1987年以来,日本发行了46张以上EPWING规格的CDROM光盘,其中有的光盘还包含多部纸质词典。这意味着日本出版商和厂商能够在这个市场上得到足够的利润,可以说是辞书电子化的一个巨大成功。这种成功笔者认为有以下几个因素: (1) 国家标准对行业的指导作用。当该词典格式成为JIS标准,日本的各大出版商都按照该规格(或略加修改)生成电子词典数据库,使得其通用性大大增强。(2) 日本读者的版权意识比较强,并且因为通用性好,只要购买一次光盘,即可在多个终端、多种平台上使用,读者愿意为之付费。(3) 规格的公开为读者的各种个性化需求提供了支持,读者购买的是数据库,查询主程序可以有多种选择,有需要的可以付费购买功能更强大的主程序,各种免费主程序也有很多选择空间。此外,还可以自行转换和制作个性化EPWING词典。(4) 规格本身的优越性。由于该规格支持使用日语的假名和汉字进行查询,支持前方一致、后方一致、完全一致、混合查询、条件查询、目录查询、全文检索等众多检索方式,支持链接(可跳查),支持图片、音频、视频等多媒体格式,支持多词典查询,为电子词典的使用者带来了纸质词典所不能比拟的使用便利性。

遗憾的是,索尼的EB词典于2000年退市,2010年以后EPWING词典也很少上市,仅2013年有一部《经济金融商务英和大辞典》。EPWING规格已逐渐为新规格ONESWING所替代,该规格最大的特征是优化了全文检索,但同时规格本身不再公开。而SystemSoft的词典也从2012年起不再支持通用的主程序。这样做的结果就是日本20多年的软件电子词典“黄金时代”(笔者眼中的)宣告结束,每种词典规格各自为营,忙于圈地,读者不再拥有多词典查询的便利。对于EPWING最终的失败,笔者认为其原因有以下几点: (1) 规格本身的局限性。因为EPWING规格制定的时间比较早,有些地方时至今日已经落后于时代。例如该规格采用JIS文字编码,使其在生僻字和其他国家文字的支持上存在先天的不足,结果词典中带有大量不能正常显示的文字以图片格式显示,既占空间又不美观。又如EB格式因为光盘容量的问题,原本是不支持汉字查询的,虽然在其他平台上使用时可以通过工具增加该功能,但毕竟其硬件已经不再销售,因此也是最早消亡的。此外还有EPWING只读光盘无法实现词库的升级等诸多因素。最重要的是光盘这种存储介质本身也已经式微。(2) 多终端、多平台使用对于读者而言是方便的,但并不是出版商所乐于见到的。不少光盘的使用条款中明确规定“本光盘仅在一台设备上使用”,但读者往往从自己的方便出发,置该条款于不顾。甚至有人将光盘的内容分享到网络上。事实上,目前中国绝大多数EPWING词典使用者所使用的词库,都是免费获得的,这当然是侵权行为,也是开放性词库难免会遇到的问题。接替光盘形式的新存储介质在数据保护上更是存在先天不足。(3) 各家出版商为了自己的利益不再团结起来,而是为了圈住自己的读者各行其是。

除了EPWING规格之外,还有很多其他格式的词库开放型电子词典,例如KDic、PDic、SugarDict、StarDict、Lingoes、Mdict等词典格式,但是这些词典格式一般都是词典爱好者个人所制定的,在影响上与EPWING不可同日而语,功能上也显得有些简陋。值得一提的是,Lingoes、Mdict电子词典是由国人开发的,具有一定的影响力。在词库来源上,一般都是作者和网友利用各种网络数据库或流出的其他词典数据制作而成,也有词典爱好者组织人员对纸质词典进行扫描识别和校对后制成词库的,其中的侵权性质难以回避,文字质量也难以保证。

2. 词库捆绑型电子词典

相比词库开放型电子词典,词库捆绑型电子词典更受出版商和软件开发商的青睐,因为这种方式可以在自己规定的格式下生成词库并随意加密,以避免数据外流,保护知识产权。当然,对于读者而言,如果想要多词典查询,除非所捆绑的词库包含了自己所需的词典,否则就只能安装多个词典软件了,使用起来还是有所不便。

个人电脑上有代表性的词库捆绑型电子词典有几年前的收费版金山词霸。金山词霸2007版收录了12部双语词典、72个专业词库、29种百科性附录等,内容丰富,功能强大,除了屏幕取词、真人发音等功能之外,还支持网络查词。(顾海峰2010)从2010年起,金山词霸已经升级为免费版的词库联网型电子词典了。

上文提到的ONESWING规格,因为其规格的不公开,可有效避免侵权,因而受到了出版商的青睐。2009年前后还有不少ONESWING词典光盘在市场上销售,但检索软件却只有官方版,功能基本局限在光盘本身的范围内,已经带有词库捆绑型电子词典的色彩了。现在这类光盘也已经基本停止销售,该规格电子词典多用于制作智能手机App,一般情况下每一个App对应一部独立的词典,已经演化为典型的词库捆绑型电子词典。在日本的iOS App store中,以ONESWING为关键词,可以搜索到100多个App。我国也有不少技术公司研发词库捆绑型电子词典,例如上海海词信息技术有限公司的“海笛科技”App平台与传统出版社合作,推出了《现代汉语词典》《新牛津英汉双解大词典》等大量优质词典App,在中国iOS App store中,“海笛科技”名下的词典数已达130多种,形成了规模。(王俊2017)与商务印书馆合作最新上架的《新华字典》App还支持笔顺演示、数字版纸版对照、播音员语音示范、摄像头取字等多种增值服务。在智能手机等便携设备上,词库捆绑型电子词典就这样占领了绝大部分市场。

出版社也有自行开发词典App的,例如外语教学与研究出版社曾推出Symbian、Java、PPC等平台上的外研社手机词典。现在的iOS和Android这两个平台更是兵家必争之地,除了将原有资源数字化之外,不少出版社还主动出击,利用各类本社资源开发内容原创性的词典App。以上海外语教育出版社在这两个平台上发布的《外教社大学英语词典》为例,该词典是基于外教社词典语料库开发的,所有语料均来自正规出版物,经编辑和专家严格审校,内容准确可靠。为避免同质化,该词典以清晰的产品定位和极强的针对性为卖点,收录大学英语四六级词汇、硕博阶段英语词汇、学术词汇,并标明每一词条的词级。除一般词典都包含的信息外,还设置了用法、联想、辨析、背景知识、谚语、考点、教材例证7个专栏,注重与本社教材相结合,因而在外语电子词典中具有一定的竞争力。(陈飘平2017)词库内容是随App下载到手机内,并可以在不联网的环境下使用,因而也属于词库捆绑型电子词典。

除了上述带有官方性质的词典App,一些组织和个人开发者开发的“李鬼”词典App也充斥着App store,其中绝大多数也是属于词库捆绑型电子词典,只是其词库的合法性、权威性和可靠性值得怀疑。

3. 词库联网型电子词典

词库联网型电子词典即网络词典,网络是使用这类词典必不可少的条件。虽然受制于网络,但随着Wi-Fi、4G乃至5G等技术的发展,随时联网不再是一个奢侈的条件,词库联网型电子词典现在也變得越来越普及。因为词库位于云端的服务器上,使用者只能通过网络对词库进行读取,可在一定程度上防止侵权。另外,在利用网络连接词库时,一般都是通过浏览器进行的,因此这类电子词典往往都会开发一个在浏览器上呈现的网页,此时浏览器也就担任了词典主程序的角色,可以实现查询等功能,不必为之开发专门的主程序。也可以作为一种补充功能很方便地集成到词库开放型App、词库捆绑型App中去,例如作为词库开放型词典主程序的EBPocket除本地词库之外还支持Yahoo!词典、日文维基等网页词典。

前面也提到过,针对这样的网页词典,也可以开发专用的移动设备查询App,这种App可以理解为网络词典的客户端,其好处是不必每次在浏览器内查找或输入网址,即点即用,充分体现了移动设备的便利性。韩国的Naver App就是Naver网站的客户端。金山词霸2010年以来的个人电脑版本和便携设备版本也属于这一类,其便携设备版本还以内购的形式进行电子词典的销售。有道词典、海词词典、沪江小d等App也都拥有不错的下载量,这些App都是相应网络词库的客户端,背后依靠大量的网络词库的支持,其中很多都是取得出版社授权的正版词典。在以技术公司为主的网络词典市场上,上海辞书出版社再次以出色的表现脱颖而出。该社《辞海》《大辞海》的数字化开发最近取得了较大的进展,《大辞海》数据库(www.dacihai.com.cn)测试版已上线(朱渊2016),同时推出的Andoid版其实就是该数据库的客户端。

既然网页词典也可以配App,也就带来一个问题,那就是如何判断一个App是本地词典还是网络词典呢?判断的标准是词库所存放的位置,只是这对于一般的使用者来说既无法掌握也没有必要区分。简单说来,如果一个词典App可以脱离网络使用,自然是本地词典;而必须联网使用的App,往往是网络词典,当然其中也有一些情况是词库仍然放在本地,只是必须联网验证身份。这也反映出随着技术的发展,两种词典的使用体验已经相差不大了。

这类词典的词库,大多由技术公司开发,其中有向出版社购买版权的,也有自行开发的。也有一些是出版社研发的,例如前述的《大辞海》数据库,还有研究机构免费公开的各类网络词典,例如韩国国立国语院的网页词典《标准国语大辞典》。除此之外还有一些网页词典是网友自发编写并免费供人使用的,例如Wikipedia、百度百科,以及汉典(其中的国语词典以台湾“教育部”授权的纸质词典《重编国语辞典修订本》为蓝本),虽然这些词典谈不上是正式的出版物,是否属于电子词典尚有争议,不过也在很大程度上满足了网友精确度要求不高的查询需求。

以上各类电子词典,考虑到版权保护等方面的问题,趋于保守的词库捆绑型是现在比较主流的电子词典。但笔者认为,更加开放而且便利的词库联网型和词库开放型电子词典,通过新的加密技术,在解决了版权保护问题的基础上,结合微信、支付宝等最新支付手段,应该能够取得更大的发展。这方面可以期待进一步研究。

参考文献

1. 陈飘平.外语电子词典如何避免同质化?——以《外教社大学英语词典》App为例.出版广角,2017(1).

2. 戴远君,徐海.电子词典研究现状与展望.辞书研究,2014(4).

3. 顾海峰.国内双语电子词典现状简论.中国科技信息,2010(22).

4. 卢华国,张雅.移动学习时代的移动词典——以词库开放型智能手机词典Mdict为例.现代教育技术,2010(6).

5. 聂华.电子书的发展及其对图书馆的影响.大学图书馆学报,2005(2).

6. 王俊.我国电子词典发展刍议.编辑之友,2017(6).

7. 余传诗.辞海悦读器亮相申城.中华读书报,20100407.

8. 张杜一雄.智能手机应用系列之四: 词典解决方案——随心所欲即点即译.新电脑,2009(6).

9. 章宜华.计算词典学.上海:上海辞书出版社,2013.

10. 朱渊.一位“无声的老师” 一座“无墙的大学”——以“辞海精神”打造“辞海品牌”.新民晚报,20161229.

11. Hartmann R R K, James G. Dictionary of Lexicography. Beijing: Foreign Language Teaching and Research Press, 2000.

猜你喜欢
电子词典词库
一“吃”多用
输入法词库取证比较研究
电子词典在大学生中的使用现状调查与分析
输入法词库乾坤大挪移
词库音系学的几个理论问题刍议
英语专业学生手机电子词典使用情况的调查
搜狗输入法助力你的学习
国内双语电子词典现状简论