数字经济发展中的四大基本语言服务能力建设

2023-09-28 08:37屈哨兵王海兰
关键词:数字化数字智能

屈哨兵,王海兰

(广州大学 a.人文学院;b.国家语言服务与粤港澳大湾区语言研究中心,广东 广州 510006)

已有学者从不同角度关注数字社会和数字经济时代的语言文字问题,这方面可以李宇明等相关学者的论述为代表。李宇明在不同场合阐释了“数据是数字经济的关键生产要素,语言数据是最为重要的数据,因而也是重要的生产要素”的观点。2019年12月17日,李宇明在“第二届语言智能与社会发展论坛”上提出“作为生产要素的语言数据”问题;2020年5月17日,李宇明在“东北亚语言资源数字化平台”成立仪式上指出,“语言数据是信息时代的生产要素,如同土地之于农民,机器之于工人,计算机通过对语言数据的加工学习可以获得知识和智能,从而去创造人类的新生活”;2020年7月4日,《光明日报》刊载李宇明的《语言数据是信息时代的生产要素》一文,这是中国的重要媒体首次发表语言数据是生产要素的观点[2];随后李宇明在《山东师范大学学报(社会科学版)》2020年第5期刊发《数据时代与语言产业》,对语言数据的生产要素属性进行了更系统全面的阐述[3]。《语言战略研究》2022年第4期刊发了“语言数据与数字经济”专题,李宇明、王春辉、王海兰、张凯、戴曼纯等多位学者讨论了语言数据的定义与功能、语言数据安全、语言数据的经济属性、语言数据治理以及语言技术与语言保护等问题①。还有一些学者关注了数字时代的语言产业[4]、语言教育[5]、语言文字生活[6]等。数字社会的语言效应,体现在语言自身系统的变迁中,体现在语言生活的变化中,也体现在语言治理和语言研究的与时俱进中。[7]数字经济时代不仅带来了语言生活的变革,推动了语言产业的发展,还对语言服务提出了更高要求,需要高质量语言服务的赋能。

本文②拟以数字经济核心产业分类为基础,讨论基于数字经济及其核心产业发展所需的语言服务能力建设问题,重点考察四个方面,分别为语言标准化服务、语言资源化服务、语言多元化服务和语言智能化服务。

一、我们所面临的数字经济时代

(一)关于数字经济

近年来,随着信息时代的全面来临,互联网、万物互联、大数据、人工智能等一系列数字技术的快速发展正深刻改变着社会生产方式和生活方式,这已成为当今世界存在的一种最突出形式。数字经济也逐渐成为促进经济社会发展的一种非常重要的生产力表述,一系列冠以“数字XX”的概念纷至沓来,较高层位的概念比如有数字时代、数字经济、数字政府、数字社会、数字生态、数字文化、数字商贸、数字金融等,较低层位的概念比如有数字采矿、数字林业、数字广告、数字出版、数字图书馆、数字交通等,以及大量虽不以“数字”打头,但事实上却是数字经济的当然构成部分的概念。国家统计局发布的《数字经济及其核心产业统计分类 (2021)》(以下简称“《分类》”)提到“互联网XX”“智慧/智能XX”和“数字化XX”等很多概念,例如互联网搜索服务、互联网安全服务、互联网数据服务、智慧农业、智慧物流、智慧医疗、智慧教育、智能交通、智能制造、数字化餐饮、数字化建筑业等都可以划入数字经济的范围。

《分类》给出的数字经济的定义,是指以数据资源作为关键生产要素、以现代信息网络作为重要载体、以信息通信技术的有效使用作为效率提升和经济结构优化的重要推动力的一系列经济活动。国务院2021年12月发布的《“十四五”数字经济发展规划》给出的数字经济的定义,“是以数据资源为关键要素,以现代信息网络为主要载体,以信息通信技术融合应用、全要素数字化转型为重要推动力,促进公平与效率更加统一的新经济形态”,这是继农业经济、工业经济之后的主要经济形态。时任国家统计局副局长鲜祖德曾就国家统计局发布的《分类》中关于数字经济概念的产生及其在国际国内经济社会发展中的地位和作用专门进行过说明 。2016年,杭州G20峰会通过了《二十国集团数字经济发展与合作倡议》,首次将“数字经济”列为G20创新增长蓝图中的一项重要议题,数字经济的概念从那时起应运而生。2017年,我国政府工作报告首次提出数字经济,指出要推动“互联网+”深入发展、促进数字经济加快成长。数字经济的发展规模和水平是国内外广泛关注的话题。2020年8月,美国经济分析局(BEA)发布的《最新数字经济核算报告》指出,2018年美国数字经济增加值为18 493亿美元,占GDP的比重为9.0%。2021年4月,中国信息通信研究院发布的《中国数字经济发展白皮书》指出,2020年中国数字经济规模达到39.2万亿元,占GDP的比重为38.6%。这些数据是基于不同标准和口径测算的,给国际比较分析增加了难度,也给国内外社会公众了解各国数字经济发展水平带来了困扰。[8]正是因为有这样的困扰,国家统计局才专门整合发布《分类》,这给我们观察了解数字经济提供了一个比较确切的范围和视角。

据《分类》的文本说明及国家统计局相关负责人的介绍,分类贯彻落实党中央、国务院关于数字经济发展战略的重大决策部署,依据G20杭州峰会提出的《二十国集团数字经济发展与合作倡议》,以及《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》《数字经济发展战略纲要》《国家信息化发展战略纲要》《关于促进互联网金融健康发展的指导意见》等政策文件,确定数字经济的基本范围。分类充分借鉴国内外相关机构关于数字经济分类的方法,参照《新产业新业态新商业模式统计分类(2018)》《战略性新兴产业分类(2018)》《统计上划分信息相关产业暂行规定》等相关统计分类标准,包括借鉴经济合作与发展组织(OECD)和美国经济分析局(BEA)关于数字经济分类的方法,遵循两者在分类中的共性原则,建立具有国际可比性的数字经济产业统计分类,从而最大程度反映与数字技术紧密相关的各种基本活动。[8]

(二)关于数字经济的产业分类

《分类》把数字经济产业分成“数字产业化”和“产业数字化”两大块,并进一步将其再分为数字产品制造业、数字产品服务业、数字技术应用业、数字要素驱动业、数字化效率提升业等5大类。前4大类为数字产业化部分,即数字经济核心产业,第5大类为产业数字化部分,是指应用数字技术和数据资源为传统产业带来的产出增加和效率提升,是数字技术与实体经济的融合。这些分类都与国家已有的《国民经济行业分类》相对应。

在5个大类中,属于前4个大类的中类有23个,相应的小类有114个,属于第5个大类(数字化效率提升)的中类有9个,相应的小类是46个。每个小类都有相应的内容说明,每个大类甚至是小类都涉及语言文字问题,都需要语言服务助力。这是本文进行相关分析并提出相关判断的基础。

认识老林是在一次朋友的聚会中。确切地说,是热心的朋友撮合了他们的结识。老林并非姓林,而是姓吴,吴天成。是一家房地产公司的老总,吴总看中了一块地,想开发成楼盘,就请摄影圈的朋友帮忙做一份宣传册页,朋友就介绍了他。身兼摄影家协会秘书长的许振平自己有家平面设计公司,靠着本地人脉资源,公司经营得风生水起。几杯酒下肚,两人就有了相见恨晚的好感。买卖谈成,心情舒畅,加上吴总的睿智风趣和许振平有着相似之处,两人当下就称兄道弟起来。吴总长一岁,为兄,许为弟。

在数字经济背景下,我们应该从数据资源这个角度,重新审视“数字”和“语言”这两个概念。传统意义上,数字是指一种用来表示数的书写符号,不同的记数系统可以使用相同的数字,最典型的当然就是阿拉伯数字1、2、3、4、5、6、7、8、9、0。我们从语言的角度看数字,通常也只是将数字看成是语言符号系统中的一个组成部分,也就是所谓的数目字,用汉语表现就是小写的 “一二三四五六七八九十”和大写的“壹贰叁肆伍陆柒捌玖拾”,很显然,这个角度难以直接引申出数字经济概念中“数字”的特有含义;从数学与计算机科学的角度看数字,大体上可以进一步理解数字(包括在此基础上形成的数学)的含义,它与世界万事万物密不可分,所以有人说上帝只用数学就可以创造这个世界。计算机采用二进制,所有信息通过0和1的各种组合来完成,从这个角度看,数字之于时代,尤其是之于信息时代的地位与作用则更加突出,数字与数字经济的关系更加接近了,因为在二进制基础上形成了计算机科学与互联网,催生了数字世界,但这又带来一个新的问题,即语言在这个阵营中到底起什么作用?这就是本文所要关注的问题。

语言在数字经济相关业态中的作用可以从四个角度来观察,分别是语言标准化角度、语言资源化角度、语言多元化角度和语言智能化角度。每一个角度站在语言服务的立场上看,都可能涉及相关能力建设方面的一些问题。

二、语言标准化服务

语言标准化角度是一个最具基础性功能的角度。在数字经济及其核心产业统计分类中,几乎所有的类别在实施过程中都会涉及语言标准化问题,准确说是语言文字标准化的问题。毫无疑问,涉及任何国民经济生产门类的各种业态在制造生产使用过程中都会涉及标准问题。现代社会各种业态的发生发展一定都是在各种标准的制约规范之下进行的,没有规范标准,任何业态一定行而不远、行而不广。在这诸多标准中,语言文字标准应该是其中不可或缺的。从遵循我国相关语言文字法规出发,各个产业行业标准一般也都会有相应的体现。早在21世纪初,《信息产业部、教育部、国家语委关于认真做好信息产业系统语言文字规范化工作的通知》(信部联办〔2001〕242号)中就明确提出,“信息产业系统所有公文、名称牌、印章、票据、报表、标牌、指示牌、说明书、广告、宣传材料等,必须使用规范汉字。需加注汉语拼音的应书写在规范汉字的下方,拼音应符合《汉语拼音正词法基本规则》的规定”。如果上述这些方面都能做得十分到位,我们当然可以说这个行业中的产业(当时还没有数字经济这个概念)语言服务能力尤其是语言文字标准化服务能力得到了充分体现。但现在要提出的是,随着国家新时代现代化新征程的推进,中国综合国力进一步提升,日益走近世界舞台中央,构建人类命运共同体的倡议得到了世界广泛的响应,那么在某些场景中或许就要有更加周全周密的语言文字标准化服务方面的梳理与布局。

举个例子说,在《分类》中,第010104这一小类是数字产品制造业—计算机制造—工业控制计算机及系统制造。该小类的说明是:“指一种采用总线结构,对生产过程及机电设备、工艺装备进行检测与控制的工具总称;工控机具有重要的计算机属性和特征,如具有计算机CPU、硬盘、内存、外设及接口,并有操作系统、控制网络和协议、计算能力、友好的人机界面;工控行业的产品和技术非常特殊,属于中间产品,是为其他各行业提供可靠、嵌入式、智能化的工业计算机制造。”我们当然相信这类工具总称是符合语言文字标准化的基本要求的,但有两个因素的标准化能力建设需要特别加以注意。第一个因素是工业控制计算机及系统制造是介于工业制造和计算机制造两个系统之间的,两者之间的语言文字标准化的对接水平如何就值得特别关注。就像上述小类说明所言,“具有计算机CPU、硬盘、内存、外设及接口,并有操作系统、控制网络和协议、计算能力、友好的人机界面”,其中的每一个细节或系统都应该具有语言文字标准上的需求甚或要求,因为笔者不是这方面的专家,无法在这里提供更加详实的情境描述,但我们认为有必要在这方面进行更加周密细致的考虑才行,或许就此要先进行比较系统的调查,这样才能弄清楚语言文字标准化需求的真实情况。第二个因素是基于我国现在是一个制造业大国,很多产品都会跨出国门进入国际市场,包括像东盟这样的友好邻邦国家地区,如何做好国内与国际的对接需要关注。一方面,为做好国际国内双循环,实现经济的高质量发展,如何使语言文字在各类数字经济产品上达到一致性、精准性,对我们来说是一个巨大的挑战。目前我们似乎在这方面的意识还不是很强,一套简便准确的语言文字标识系统在某种意义上能够更好地服务于经济业态的成长壮大,这些业态当然也包括数字经济的各种业态。另一方面,针对不同国家地区不同语种(包括相关语种的不同方言)在相应产品上的语言文字标准化表达,也是对我国这方面语言能力建设的一个考验。目前我们在这方面要做的工作还有很多,相关的研究有可能跟不上数字经济发展的速度。

三、语言资源化服务

从语言资源角度看数字经济核心产业,可能是语言服务能力建设最诱人的一个角度。李宇明关于这个问题有比较专门的研究。他提出“语言数据是生产要素”“语言数据纳入数字经济视野”,并从“语言和物理、社会、信息三元空间”在信息时代的视角阐述了语言作为一种资源何以成立的原因,具有前瞻性地指出,“随着物联网、语言智能的发展和智能化新基建的实施,语言将跨入物理空间,在人类的三元空间中运用。语言在人类生产活动的作用将更为显著”。[2]根据初步观察,如果我们将语言作为一种数据资源,就会在现在国家已公布的数字经济核心产业中的“数字技术应用业”“数据要素驱动业”“数字化效率提升业”三个大类中看到语言作为数据资源的一种可能,有时候甚至是一种直接的体现。之所以说是一种可能,是因为从现有的相关业态的说明描述中,还看不到非常明确的对语言作为数字技术应用基础或者数据要素驱动基础的自觉,但通过对相关业态的粗浅观察,我们认为语言作为一种资源,应该在数字经济相关业态中得到更加充分的体现。

举一个例子来说,数字应用技术的“互联网安全服务”(030305:数字技术应用业—互联网关联服务—互联网安全服务)这个小类的说明是:“指各种互联网安全服务活动,包括网络安全集成服务、网络安全运维服务、网络安全灾备服务、网络安全监测和应急服务、网络安全认证检测服务、网络安全风险评估服务、网络安全咨询服务、网络安全培训服务等。”这些已列出的互联网安全服务都有着各自具体的应用场景。但在信息化互联网时代,尤其是在万物互联的时代,语言作为庞大的互联网资源最重要的载体,在互联网安全服务的范围内却没有独立的一席之地,这不免让人觉得有些遗憾。当然我们也可以做另外一种解释,就是将语言本身看成一种交际交流的工具,是所有内容安全的信息载体,可以分布在网络安全集成、网络安全运维、网络安全灾备等各种具体场景中,事实上语言作为信息安全的内容也确实是这样存在着的。但如果我们将语言看成是一种资源、一种数据要素的话,那就有必要在相应的数字经济的小类说明描述中为其留下相对清晰的空间,这样可能更加有利于促进数字经济的健康发展。

数字经济催生了大量新职业,为新职业做好语言人力资源培养是语言资源化服务的一个重要维度。自2015年《中华人民共和国职业分类大典》颁布以来,人力资源和社会保障部会同国家市场监督管理总局、国家统计局已发布5批共74个新职业,这些新职业主要集中在数字经济领域,反映了数字经济发展的需要,例如新职业中包含了大量人工智能工程技术人员、物联网工程技术人员等数字技术工程专业人员,数字化管理师、数据库运行管理员、数字化解决方案设计师、电子数据取证分析师、商务数据分析师等以数字化管理和数据分析为核心业务的新职业,以及全媒体运营师、在线学习服务师等数字化产业发展催生的新职业,详见表1。新职业对语言能力提出新要求,例如人力资源和社会保障部、工业和信息化部颁布的《数字化管理师国家职业技术技能标准(2021年版)》,在关于数字化管理师的专业能力要求中,明确提出要具备“能建立沟通平台,实现员工、部门之间在线沟通”,“能通过电话、短信等方式提醒接收者查阅信息”,“能使用在线文字、语音、视频、直播等多种工具进行沟通”等数字化沟通的能力。数字化沟通能力显然有别于面对面的沟通能力,确切地说是一种更综合、要求更高的语言能力。适应数字经济发展要求,培养适应新职业新岗位的语言人力资源,语言资源化服务方面应及时做出回应,而数字化沟通能力是一种语言服务能力,是人力资源在语言能力方面的重要体现。

表1 2015年以来国家发布的新职业

从上述语言资源理念出发,在数字技术应用业、数据要素驱动业、数字化效率提升业的很多小类说明描述中,语言作为数字经济的重要支撑力量可能会得到进一步的彰显。举数字化效率提升业中的“智能铁路运输”例子来说,在相关说明中描述其涉及的范围,是“指借助数字化技术和互联网平台进行的铁路安全管理、调度指挥、行车组织、客运组织、货运组织,以及机车车辆、线桥隧涵、牵引供电、通信信号、信息系统的运用及维修养护等活动”。这里面借助数字化技术和互联网平台进行的各种管理运用及维修养护何尝离得开语言文字信息须臾?安全管理需要语言指引,调度指挥需要语言实施,行车组织需要语言编号,客运货运组织需要语言表达,机车车辆和线桥隧涵都有语言标记,牵引供电需要语言达成,通信信号和信息系统则更是离不开语言基座。语言作为实现业态要素驱动的重要作用不言自明,作为掌握这些要素的人力资源要求同样不可或缺。我们现在缺少的是对其作为驱动要素的更加有效的组织利用,在数字经济发展构成要素的理论推演上还有更多的工作要做。

四、语言多元化服务

语言多元化角度实际上和语言资源化角度不是逻辑上彼此之间切割得非常清楚的概念。数字经济时代背景下,语言作为一种数据资源在拥有更多标准化空间需求的同时,也拥有一种多元化集成的可能,这种多元化集成有可能成为数字经济时代的一种常态。

2015年,在北京语言大学举办的第二届中国语言生活学术研讨会上,我国著名民族语言学家戴庆厦先生与大家讨论这样一个问题:随着城镇化的发展,大量人口离开乡村流向城市,手机使用日益普及,这是否会引起民族语言或者方言加快消失?戴先生说未必,反倒是因为现在有了手机,离开故乡的人每天可以用手机与家乡人通话,通话中通常会使用家乡的方言,这可能会使方言在经常使用的过程中得到更好的保存。这是一个值得重视的观点。道理很简单,机器(例如手机)和人不一样,从理论上说,各种不同的方言或者不同的语言,在互联网技术中都能得到同样的保存和传输。由此可以得出这样一个结论:数字经济时代在追求语言标准化和语言数据资源化的同时,实际上也为语言多元化留下了广阔的空间,这里面也包括留下诸如面向“语保工程”这样着眼更长远文化传承保护工作的广阔空间。

从某种意义上讲,也可以把语言多元化本身看成语言数据资源化的一个有机组成部分。数字经济的很多业态实际上能够在此方面发挥更大的作用。语言多元化需求在“数字产品服务业”“数字技术应用业”“数据要素驱动业”“数字化效率提升业”等方面都存在,例如数字技术应用业之计算机、软件及辅助设备批发(020101:数字技术应用业—数字产品批发—计算机、软件及辅助设备批发)的小类说明,是“指各类计算机、软件及辅助设备的批发和进出口活动”,数据要素驱动业之“互联网搜索服务”(030302:数据要素驱动业—互联网关联服务—互联网搜索服务)的小类说明,是“指利用互联网查找、存储在其他站点上的信息的服务活动”,这种查找其他站点的信息一定会涉及不同语言不同方言的多元需求,也是一种语言能力的需求。相比较之下,语言多元化追求在数据要素驱动业和数字化效率提升业中的体现更加充分。我们各举一个例子。

在数据要素驱动业中有“互联网生活服务平台”(040102:数据要素驱动业—互联网—互联网生活平台服务),其小类说明是“指专门为居民生活服务提供第三方服务平台的互联网活动,包括互联网销售平台、互联网约车服务平台、在线旅游经营服务平台、互联网体育平台、互联网教育平台、互联网社交平台等”。很显然,在这些服务平台上语言服务需求一定是多元化的,因为它涉及不同的民族区域,不同的方言区域,多民族多方言小分居大杂聚的区域,边境地区不同人群可以往来的区域,等等。在这类互联网生活平台上产生的各种各样的语言服务需求,就要求语言服务能力做更加细致的应对考虑。目前在语言产业方面对多语言多方言的多元化资源提供已经具有相当好的基础。以科大讯飞为例,该公司能够为各种平台提供语言服务,例如讯飞翻译机3.0版本可以提供59种语言的翻译,讯飞输入法(手机版)可以提供11种汉语方言的语音输入,还可以支持粤语英语混说且同时支持说普通话(讯飞官网介绍的是支持23种方言的输入),同时还支持9种外语的语音输入及其与中文的互译。这些语种或者方言种类的选择是建立在扎实的市场调研基础之上。科大讯飞的另一种产品咪咕灵犀,据官网的介绍是“支持23地方言,三大民族语言轻松互译”[9]。但是相对于更为多元的语言和方言情况,我们实际上已经到了一个在各类平台上可以提供更加多元的语言服务的阶段。现行的技术手段及资源储备,尤其是汉语方言经过国家“语保工程”后形成了规模巨大的资源库,我们可以考虑推动相关企业在平台上提供更加丰富的语言资源,现在的平台技术支撑条件也应该可以满足这样的需要,这种满足是语言服务能力提升的一个表现。

再举一个数字化效率提升业方面的例子。“数字化社会工作”(050703:数字化效率提升—数字社会—数字化社会工作)的小类说明,是“指利用数字化技术和信息化平台开展的慈善、救助、福利、护理、帮助等社会工作的活动”,很显然这个小类涉及的人群通常都是弱势群体,在很多时候他们的各种具体细微的语言服务需求有可能被忽略,相对其他人群而言,他们发出的声音可能要小很多。在数字经济时代,这应该成为多元语言服务需求考虑的一个重要方面。比如,第七次全国人口普查数据显示,相对上一次人口普查,我国的文盲率由4.08%下降到2.67%,相对于新中国成立之初超过80%的文盲率,这两个数字反映出我国文化教育事业上的巨大进步。但由于人口基数巨大,2.67%也意味着一个不小的群体,文盲的语言能力相对于受过教育的人来说是比较弱的,他们也通常可能是社会化工作所要关注的弱势群体。如何给他们提供更好的语言服务,把“以人民为中心”的执政理念更加彻底地落到实处,则是对国家语言服务能力的一种考验。数字化效率提升的很多方面,尤其是涉及各色不同的人群存在的场景,情况尤其如此。例如“数字化餐饮”“数字化商务服务”“智慧教育”“智慧医疗”“互联网居民生活服务”“互联网文体娱乐业”等等,无不涉及语言多元化服务的问题,需要我们做更多更细致的工作,进一步提升语言服务能力。

五、语言智能化服务

语言智能是语言信息的智能化,是运用计算机信息技术模仿人类的智能,分析和处理人类语言的过程,是人工智能的重要组成部分及人机交互认知的重要基础和手段。[10]语言智能水平关乎国家语言能力建设。[11]在数字经济发展中,语言智能水平及其应用的广度和深度深刻影响着数字经济发展的质量,特别是数字化效率提升业,基本每一个产业小类的发展都须臾离不开语言智能服务的参与。

我们以中类产业“数字社会”(0507)为例。在统计分类中,“数字社会”下设三个小类,分别为智慧教育(050701)、“智慧医疗”(050702)和“数字化社会工作”(050703),这三个小类的发展都需要语言智能服务的支持。发展智慧教育(050701),利用数字化技术和信息化平台进行内容传播和快速学习,开展在线教育、在线培训等需要语言智能服务的深度参与。目前机器翻译、语音识别和语音合成、智能批改、智能写作、语音评测等语言智能产品和服务已广泛应用于教育领域。2022年高考,已经有12个省份使用人工智能技术来辅助批改语文、英语作文,该技术在中高考中已经累计服务3000多万考生。2019年全球中文学习平台上线以来,为国内外中文学习者提供优质学习资源和智能化学习路径,建成两年即发展用户600万人,覆盖全球182个国家和地区,平台总访问量突破一亿次。教育部部长怀进鹏指出,“把教育信息化作为发展的战略制高点,以教育信息化推动教育高质量发展,以教育信息化引领教育现代化”,强调“教育系统大力推进教育信息化、推进教育资源数字化建设”。[12]教育信息化、智慧化的发展需要更高水平的语言智能服务的支撑。“智慧医疗”是指“利用数字化技术和信息化平台开展的医学检查检验影像,以及在线医疗、远程医疗等服务活动”,其中在线医疗,特别是AI问诊就需要语言智能辅助。“数字化社会工作”是指利用数字化技术和信息化平台来开展慈善、救助、福利、护理、帮助等社会工作的活动,同样需要大量的语言智能产品,如各种养老机器人、护理机器人、康复机器人、陪伴机器人等,改善老年人生活,提升数字化社会工作水平。一些自助服务机终端面向残障人士、老年人、文化水平比较低的人群需求时,也应该从语言智能的角度进行设计优化和功能对接。

中国科学院《互联网周刊》、eNet研究院、德本咨询联合发布的“2022数字经济案例TOP100”名单中,有多项案例都是语言智能服务的应用。例如,南京市12345政务服务呼叫中心、捷通华声推出的智慧城市12345政务服务便民热线,基于语音识别、语音合成、语义理解、文本分析等人工智能核心技术,采用AI能力中台和知识中台,与咨询中心业务系统进行深度融合,驱动全场景智能化服务,通过人工智能核心技术,形成文本机器人、智能语音导航、智能外呼、实时坐席辅助、智能机器人、语音质检分析等智能模块,让智能客服运营更简单、更省心,让社会公众更满意,做到“事事有落实,件件有答复”。再如,华北石油电力、中关村科金推出的智能外呼系统,基于语音识别、语音合成、自然语言处理及机器学习等技术,具备多样化的智能功能,依靠预测式外呼、多轮语音交互、用户意图识别、高并发、自动重呼、语音短信结合通知等产品功能,替代人工向用户精准传达停电原因、停电时间、停电范围及注意事项等多项信息。

数字经济的高质量发展有赖于数量充足、类型多样、品质优良的语言智能服务。目前,我国的语言智能产业已经成长为一个新兴的语言产业业态。中国语音产业联盟发布的《2020—2021中国智能语音产业发展白皮书》显示,2021 年我国智能语音产业市场规模预计达285亿元,同比增长44%。随着智能语音技术的成熟和市场对智能化需求的不断扩大,智能语音产业将保持高速增长,预计2025 年国内前装车载语音市场规模约为 32 亿元,2030 年仅我国翻译机市场规模就将达56.2 亿元。语言智能产品和服务在在线教育、客服电话、机器翻译等领域得到广泛应用,但与社会需求还有距离,在供给数量、质量、类型和方式上都还有很大提升空间,例如在互联网应用适老化服务方面就还有较大缺口。为进一步推动解决老年人在运用智能技术方面遇到的困难,让老年人更好地共享信息化发展成果,国家有关部门出台了一系列互联网应用适老化改造的文件,其中不少内容就是强调要提高互联网应用的智能语言服务水平。2020年12月,工业和信息化部印发的《互联网应用适老化及无障碍改造专项行动方案》(工信部信管〔2020〕200号)提出,互联网网站和移动互联网应用(APP)针对老年人提升方言识别能力,方便不会普通话的老人使用智能设备。对旅游出行类APP的调查发现,71款APP中,只有6款支持语音搜索服务,占8.45%,且均只能识别普通话一种语言;7款提供语音播报服务,占9.86%;36款提供智能客服,占73.47%,这表明该类型APP在面向老年人的语言智能服务方面,整体上还亟待优化。[13]

六、余 论

数字经济时代对标准化、资源化、多元化和智能化等各方面语言服务能力的建设都提出了更多更高的要求。凡事总有两面性,在数字经济时代,语言服务给我们带来了巨大的便利,但语言作为一种数据资源也给我们的生活造成纷扰。比较典型且亟需解决的问题就是存在未经使用者本人同意而进行相关语言信息数据采集和使用的问题。《半月谈》记者在某社交APP上进行感知测试,他先后发布4条包含信用卡办理、婚纱摄影、婴儿纸尿裤和房产交易的公开信息(测试前,记者没有在该手机的任何APP上发布或检索过类似信息),不到30分钟,某地产企业广告在3款不同的新闻资讯类APP中做了首页推荐,某婚纱摄影广告也在另一款社交APP上发布“头条推荐”。[14]这就是现在大家通常所说的“大数据杀熟”。

当然,现在国家对这种情况也没有坐视不管,一些地方通过立法等手段规范数据使用。例如,深圳在2021年7月6日公布《深圳经济特区数据条例》,禁止APP“不全面授权就不让用”,该《条例》于2022年1月1号实施。全国人大也在进行个人信息保护法草案的审议(2021年8月17日),或许会对“大数据杀熟”“非法买卖和泄露个人信息”等作出有针对性的规范。[15]这应该是我们希望看到的一种情况。数字经济对人类社会带来了新的进步,语言服务能力的建设给我们的生产生活带来极大的便利,数据使用的规范使我们的生活尊严得到更好的保护,从这个角度看,防止各种语言数据的滥用本身,也成了语言服务能力建设的重要组成部分。

【注释】

① 《语言战略研究》2022年第4期刊发“语言数据与数字经济”专题文章,包括李宇明、王春辉的主持人语《从数据到语言数据》,王春辉的《语言数据安全论》,王海兰的《试论语言数据的经济属性》,张凯、薛嗣媛、周建设的《语言智能技术发展与语言数据治理技术模式构建》,戴曼纯的《数字时代语言技术与语言保护:以欧洲为例》,以及黄少安等的《“语言数据与数字经济”多人谈》。

② 本文曾以《数字经济时代里的语言服务能力建设问题》为题在2021年8月中国-东盟语言文化论坛(贵阳)上进行报告,在报告的基础上有所修改和补充。

猜你喜欢
数字化数字智能
家纺业亟待数字化赋能
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
智能前沿
智能前沿
智能前沿
智能前沿
答数字
数字化制胜
数字看G20