当汉字邂逅互联网

2023-01-06 01:08郭晔旻
世界博览 2022年24期
关键词:字符集编码汉字

郭晔旻

20世纪90年代,当互联网进入中国的时候,汉字的电脑输入早已不存在什么困难。可古老的汉字想要迈入年轻的互联网,却还面临着一大阻碍——“乱码”。

其实这个情况在电脑(单机)时代就已出现,不同的供应商会采用不同的代码,哪怕都是美国的公司,早期IBM和Unix机器也都使用各自的标准,例如,字符代码“97”在IBM机器上会输出“A”,而在Unix系统上则会得到“/”。这导致一个严重的问题:使用不兼容的语言或编码系统的机器之间共享文本文件时,计算机会在屏幕上吐出一串问号或不知所谓的字符来代替正常的“字母”。

这个问题对于采用拉丁字母的欧美语言来说,还相对容易解决。“美国信息交换标准代码”也就是“ASCII”码,是一个字节(或8位二进制)系统,将容许表达的字符数限制在128(后来扩展到256)个,它们所需要的只是拉丁字母(及其变体)、阿拉伯数字、再加上标点符号而已。“ASCII”码为常规的26个拉丁字母之外的变体字符留出了充足的余量,比如挪威语的“ø”、德语中的“ü”、法语的“é”或者用于葡萄牙语的“ç”。因此,当今一些最广泛使用的软件编程语言仍在使用“ASCII”码。但这对表达数量多达几万个的汉字显然是无能为力的。

另外,当代汉字具有多地域特征:不仅包含中、日、韩,还有繁、简体字的区别,不同地域的汉字采用不同的编码。对简体字而言,在1981年5月开始实施的《信息交换用汉字编码字符集——基本集》(GB2312)被称为汉字编码“秦始皇”,对促进汉字信息技术的发展发挥了重要作用。而在繁体字社区,“大五码”(Big5)在很长时间里都是最通行的汉字编码系统。更何况东邻日本,不但有自己独特的汉字字形(如“沢(泽)”),也拥有日本工业规格协会自行制定的“JIS基本汉字”编码字符集,其中共收录了6355个汉字和524个非汉字图形符号。需要说明的是,二战以后日本限制汉字的适用范围,其“当用汉字表”仅收录汉字1850个,后来“常用汉字表”的汉字也只略微上升到2136个。因此“JIS基本汉字”已经完全够用。

不同的系统采用不同的汉字编码,给使用者带来了极大困扰。有一个著名的例子,光荣公司开发的战略游戏《三国志》早期并没有正式中文版,因此在国内的电脑运行时,汉字全都变成了乱码——比如“曹操”变成了“变巨”,“蒋介石”被错译成“常凯申”,令人啼笑皆非。在国内用户初上互聯网时,这一问题变得更加严重——采用“大五码”(Big5)的繁体字网站全部变成了乱码,根本无法获取信息。世纪之交时,作为缓解这个问题的工具,诸如“东方快车”一类的内码转换软件一度大行其道,几乎成了“网上冲浪”的必需品。

但彻底解决这一问题,还是要等到国际标准化组织(ISO)制定的ISO 10646(或称ISO/IEC 10646)标准所定义的通用多八位编码字符集(UCS)的成熟。这个字符集包含了已知语言的所有字符,并保证了与其他字符集的双向兼容。用通俗的话说,你将任何文本字符串翻译到UCS格式,然后再翻译回原编码,不会丢失任何信息。就个人电脑系统而言,微软的“Windows XP” “Office 2000”及其后的产品,都采用了这一字符集。从此以后,简体字系统访问繁体字乃至日本汉字的网页时,便不会出现那些奇奇怪怪的符号了。而红极一时的“东方快车”也逐渐变得乏人问津。

除了编码问题,技术进步也同样填平了简体字与繁体字之间的“鸿沟”。不但一些文字处理软件内置了繁简体的转换功能,人们也可以很容易地在一些网站上在线实现汉字的繁简体转换。当然,小瑕疵还是有的。由于汉字简化中同时存在“一简对多繁”(例如“并”可转化“并”“並”“併”)与“一繁对多简”(例如“餘”可转化为“余”“馀”)的情况,软件的自动转换正确率尚做不到100%,但就整体而言,因繁简字形不同而形成的沟通障碍已然不复存在了。

如果说编码与字形问题的解决使不同汉字类型的使用者在网上实现了自由交流,那么进入21世纪后,互联网(尤其移动互联网)的普及,则令古老的汉字迸发出了新的活力。

由于国内大量移动网民的存在,移动互联网具备了群聚效应和放大效应,其便捷高效的特性发挥得更加显著,网络传播的速度和广度都达到了前所未有的程度。广大网民既是信息的接受者,也是信息的发布者,既是语言的使用者,也是语言的创造者。移动互联网平台像是一台庞大的“热词”制造机,汉字构成的词库每天都在不断更新、不断筛选、不断扩张,国人的语言生活,也正以一种前所未有的速度发生着变化。

在“前互联网”时代,词汇的传播主要依靠口耳相传以及报刊书籍、广播电视等各类媒体,因此各地往往都有独特的流行语——比如上世纪八九十年代,北京人把有实力、名声大的人称作“(大)腕儿”,但这个词南方人不但不说,上了年纪的人还并不太明白;反过来,上海人流行说“淘(捣)浆糊”,甚至当地报纸里也这么写,可北方人读来,自然也是不知所谓。

然而,互联网的诞生改变了这种情况。互联网上的交流是不存在地域限制的,只要写(打)出来的字,其他人看得懂什么意思,就存在扩散开来的可能。譬如吴方言地区有个极常见的疑问语气词“伐”(“弗啊”的合音),说“好伐”就是“好不好” “好吗”的意思。该词在互联网上出现以后成功超出了方言区的范畴,而且其语意也远远超出了疑问和征求意见的范围。在网络语言中,“好伐”这个词最常见和主要的功能是传递说话者的一种主观意见、态度和情感。在表达时,“好伐”可以被用来加强认定语气,重在申明句子所描述的事实或情况的显而易见。虽然普通话里并不是没有类似的表达手段,但“好伐”这个方言词还是在网络上拥有了一席之地。

只要获得了网民的认可,互联网时代的新词扩散速度是相当惊人的。比如2018年底,《咬文嚼字》杂志发布了当年的十大网络流行语,其中“官宣”一词赫然在目。光看字面意思,“官宣”大概是指“官方宣布”,这只是在表明信息发布比较正式、靠谱而已。但在过去,这种用法并不多见。据说这个词是因为2018年10月16日,艺人赵丽颖和冯绍峰在微博宣布结婚并配文“官宣”而“走红”网络的。当天,“官宣”一词在网络上“疯狂”传播,诸如饿了么、周黑鸭、宝马中国等商家的微博纷纷效仿,发布自己的“官宣”图文——显然,从咬文嚼字的角度看,它们哪一家都算不上“官方宣布”。可这个文不对题的新词还是依靠网络传播迅速站稳了脚跟,在纸媒上同样高频使用,成为了一个形式新颖且合乎规范的偏正结构的动词。这一切,从赵丽颖发布微博算起,耗时不过1个多月——一个“前互联网”时代根本无法想象的时间。

当然,互联网时代的到来也给汉字带来了挑战。在过去的汉字历史上,字形的变化曾经是汉字演变的主要内容。《说文解字》所列举的“六书”(象形、指事、会意、形声、转注、假借)在楷书里已被破坏。比如“奉”本来是个会意字,“从手,从収(双手)”,在篆文里,其本义是“两手恭敬地捧着”,可是在楷体字形里,却根本无法找出这种联系了。又比如篆文的“火”,在楷书的“烈” “尞” “炊”3个字里分化成“灬” “小” “火”3个模样。而“烈”与“魚(鱼)”虽然看似都是“灬”底,但前者的构字法是“形声”,后者却是“象形”,两者风马牛不相及。

而在互聯网时代,由于各种编码已经将通行汉字的字形固定了下来,汉字的演变转变到字义方面。进入互联网时代之后,汉字的书写形式也发生了巨大的变化,从笔墨书写逐渐过渡到以键盘录入、手写输入和语音转换录入为主。书写方式基本摆脱了汉字形体的制约,跟汉字结构基本上没有明确的联系,可以说这是文字在书写方式上的一次巨大变革。书写方式改变的同时,人们的书写习惯也在逐渐发生变化,更加追求文字输出和录入的简单便捷。

就目前而言,键盘输入仍是一种主要的汉字输入方式,而拼音输入法又是其中的主流。由于汉字同音字的客观存在,拼音输入法在输入相同的拼音后会出现各种同音异形词,加之网络自由随意的特点,人们很容易把一时输错的词当成一种习惯,积非成是。比如“斑竹”之于“版主”,“鸭梨”之于“压力”以及“驴友”之于“旅游(友)”都是这种情况。这些网络新词的共同特点是词语音节与原有词汇相同或相近,但意义完全不相同。其中的一些词,由于网络生态的变化逐渐湮没无闻:BBS既已淡出视野,管理BBS的“斑竹(版主)”自然也没人再提了。但另一些词,似乎展现出相当强的活力,譬如“驴友”一词,不但时不时见诸网络,甚至还有个旅游网站,直接叫“驴妈妈”。若是迁延日久,又该如何解释其词源呢?当代人自然知道它不是源自阿凡提那样的“骑驴之友”,但后世就未必清楚了。

目前,由于各种编码已经将通行汉字的字形固定下来,汉字的演变已从字形转变到字义方面。键盘输入成为一种主要的汉字输入方式,人们很容易把一时输错的词当成一种习惯,积非成是。

在一些网络热词中,谐音与英文渗入汉字,甚至直接取代汉字使用,是汉字在互联网时代遇到的又一大挑战。

另一方面,数字谐音与英文的渗入,则是汉字在互联网时代遭遇的又一挑战。数字谐音本质上与一些网络新词一样,是利用数字发音表达读音近似的词语,比如“520”表示“我爱你”,“1314”代表“一生一世”,“7456”代表“气死我了”,或者拟声词“555”只是单纯模仿哭声。至于英文的渗入,除了诸多拉丁字母缩写(比如“USB”)直接取代汉字使用之外,还影响到了汉语的语法,“+ing”就是这方面的典型例子。“+ing”是英语中的动词进行时态,对应的汉字用法是“正在……”,但网络上不时出现“吃饭ing”“睡觉ing”之类的用法,甚至流行歌手组合五月天有首歌名叫做《恋爱ing》。这实际上是英语中的动词进行时态“ing”语法复制到了汉语里,这两种不同形态的文字碰撞在一起激发了强烈的新鲜感。与此同时,这种语法方式简单明了,迎合了互联网讲求效率优先的取向,于是被广泛使用。

对于历史悠久的汉字而言,这些都是前所未有的挑战。不过,既然汉字在最近一个世纪里先后渡过了“拉丁化”与“电脑输入”的难关,自然也有理由相信,拥有超过15亿使用者的汉字,在互联网时代拥有光明的未来。

(责编:刘婕)

猜你喜欢
字符集编码汉字
基于SAR-SIFT和快速稀疏编码的合成孔径雷达图像配准
《全元诗》未编码疑难字考辨十五则
子带编码在图像压缩编码中的应用
ORACLE字符集问题的分析
Genome and healthcare
ORACLE数据库字符集问题及解决方法
医院信息系统Oracle数据库中导入数据中文乱码的解决技术