基于语料库的语言服务平台建设

2016-02-27 14:18杨东东蒋宇鹏
科教导刊 2016年31期
关键词:语言服务语料库

杨东东 蒋宇鹏

摘 要 随着信息化和大数据的发展,基于真实语境的语料库在语言服务平台建设方面起着越来越重要的作用。本文计划以上海交大外国语学院的外语学科为依托,以自主研发大规模英汉平行语料库和专用语料库为基础,建设一个集语言学习、测试、翻译于一体的综合性语言服务平台。

关键词 语料库 真实语境 语言服务

中图分类号:H030 文献标识码:A DOI:10.16400/j.cnki.kjdks.2016.11.069

Abstract With the development of information technology and big data, corpus which is based on real context plays an increasingly important role in the construction of language service platform. This paper planned to construct an integrated language service platform, including a set of language learning, testing and translation, which is based on the disciplines of School of Foreign Languages in Shanghai Jiao Tong University, and also the large-scale parallel corpus and dedicated Corpus developed dependently.

Keywords corpus; real context; language service

上海交大外國语学院目前正在自主研发4000万字词大规模英汉平行语料库和法律、医学、航空等专用语料库,在此基础上,计划建设一个集语言学习、测试、翻译于一体的综合性语言服务平台。其特点是依据的语料真实,可信度高,功能多样。

该平台主要分为三个部分,第一部分是自主语言学习模块,第二部分语言水平测试模块,第三部分是语言翻译模块。其中,每一部分都包括通用语言服务和行业专用语言服务两大功能,可以满足不同用户多样化的语言需求。

1建设基于语料库的语言服务平台的背景和必要性

语言学中,语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语的样本汇集而成,用来代表特定的语言或语言变体,可用于机助翻译、双语词典编撰、外语教学、语言测试等应用领。

1.1 国内基于语料库的语言服务行业现状与分布

上世纪八十年代以来,随着语言处理技术的不断革新,跨文化交流活动的日益频繁,国内外语言产业获得快速发展,产业形态日益多样化,由原先的语言翻译和语言教育服务等业态扩大到语言处理、语言能力提升和品牌名牌命名及品牌文化评估等业态,产业总值呈几何级数增加。

目前,语言服务创新资源主要集中于北京、上海和广州等地。北京和上海均有一定数量的高校和研究机构从事语料库建设与研究,较有影响力的有北京大学计算机系、北京外国语大学中国外语教育研究中心和上海交通大学外国语学院。

1.2 语言产业中语料库的应用现状与需求分析

国内语言服务需求具体表现为以下趋势:外语培训和语言翻译服务发展势头猛;语言处理产业落后,各种语言支持服务的技术产业发展缓慢;品牌命名产业和针对功能性语言障碍的语言能力提升服务尚未启动;汉语言文字的现代信息化处理技术仍有较大上升空间,汉语国际化的产业化水平低。根据以上分析,本项目主要集中于机助翻译技术、语言教学与能力测试几个方面:

(1)机助翻译技术。基于规则的机助翻译使用句法规则作为句式转换的基础,而常规的统计机助翻译利用网络语料对翻译引擎进行训练,利用双语语料库进行句对齐、词对齐,利用单语语料库构建转换规则。目前的趋势是将人工翻译的高质量语料利用统计机助翻译系统进行训练,再利用机助翻译的结果进行译后编辑,以提高翻译效率,这已经成为部分跨国企业的常规实践。

(2)语言教学与测试。语料库语言学在语言教学和语言测试中具有非常重要的作用。它可以帮助教师和学生了解语言中的典型现象,如词汇量、词汇频率、搭配、习语、语义韵、难度、文体特征、翻译对应词等,许多过去全凭老师个人直觉的东西如今可以通过快速处理大规模数据得到验证,从而使教材编纂和教学大纲更加客观科学,也使语言教学更加高效。

2 语言服务平台建设的内容

2.1 语言服务平台的主要内容

本项目主要依托上海交大外国语学院的外语学科,以自主研发的4000万字词大规模英汉平行语料库和法律、医学、航空等专用语料库为基础,建设一个集语言学习、测试、翻译于一体的综合性语言服务平台。该平台主要分为三个部分,第一部分是自主语言学习模块,第二部分语言水平测试模块,第三部分是语言翻译模块。其中,每一部分都包括通用语言服务和行业专用语言服务两大功能,可以满足用户多样化的语言需求。

2.1.1 经过标引处理的英汉语料库系统

大规模英汉/汉英语料库是本项目的灵魂,是各项翻译研究、实践、教学以及其他应用研究的基础。交大外院在20世纪80年代就建立起具有世界领先水平的科技语料库。目前外院正在研制的大规模英汉/汉英平行语料库以及为当代英汉/汉英平行语料库的建设提供了重要物质基础,为机助翻译的研发奠定了良好的基础。

项目正在建设的总字数达4千万字词的英汉双语双向平行语料库,同时,已经建成若干行业专用语料库,如航空科技英语语料库、医学英语语料库。具体流程如下:

(1)语料采集。文本采集对象主要为高质量的文学作品、新闻稿件等真实语料。文本主要通过人工键盘输入、人工扫描以及通过网络下载等方法,并以纯文本形式储存。

(2)语料的加工。通过运用语料库建设技术,对采集的文本进行消除噪音信息处理,并实现双语文本在篇章、段落层面的对齐;同时对选用的语料素材进行信息标注(如语料素材的作者信息、出处、题材类型、语言质量等),对语料素材建立一个评价的基本信息库。

(3)语块匹配。通过计算机的语块计算和提取技术,建立双语对应具翻译意义单位的语块匹配数据库,形成平行语料库核心信息,为汉英翻译和教学等应用提供基础。

(4)频数与概率分析。对于语块数据库,通过频数和概率的计算机智能分析,统计出本语料库中各种表达的意义、使用的语言形式和实现的功能的频度和概率等基本信息。

(5)建成平行语料库。实现双语文本在句子层面与语块层面的对齐,建成平行语料库。

(6)构建汉英对应的辞典库。在建立英汉/汉英语料库的同时,建立一个汉英对应的数据库,作为语料库机助翻译时的一个辅助系统。

2.1.2 英汉机助翻译系统

交大外院的翻译平台以自主研发的海量英汉语料库为基础,以真实语境为翻译核心,采用基于语块匹配的翻译原理,以此实现最准确的语义翻译状态。同时,根据已建成和即将建成的行业专用语料库,开发出更适合具体行业应用的翻译软件。

本系统是实现英汉互译过程中极其重要一项,目的在于向使用者提供一種方便、准确、具有亲和性的在线英汉互译应用服务。

(1)检索、匹配模块。本系统的关键在于建立一个智能化的语料库翻译检索模块。通过系统中的语块计算与提取、双语文本语块模糊与精确匹配等技术,将需要翻译的源语言与核心数据库中积累的大量而真实的且经过标注处理的双语语料在语块、句子等层面进行匹配,找出一系列匹配性佳的双语语句。一般做到提供5句最适匹配状态的译文语句,供译者根据个人文风选择。

(2)翻译编辑模块。基于检索、匹配模块,以语块为主从语料库中匹配出需翻译语句的参考句,作为翻译编辑的基础;并且智能化地提供相应参考句的评价信息(如语言质量评价A、B、C三级和引用率),需要时提供参考句所处的段落语境。本模块以匹配性最适的语句作为译句的翻译参考句,译者也可以根据自己文风偏好选择其他匹配的语句作为译句的翻译参考句。有助于译者对机译文本进行科学、合理的修饰、完善。在此基础上,再辅以一定的常用的机助翻译技术和汉英双语专业科技词典库,向译者提供可靠的翻译文本。

(3)终端显示模块。显示模块核心主要有源文本输入窗口、参考语句窗口、译文编辑输出窗口。在整个窗口操作过程中,所有操作尽可能由鼠标来完成,减少人工输入的时间。

2.1.3 语言能力测试系统

该系统根据建成的语料库,采用外院自主研发的语言测试系统,对语言学习者的语言水平进行能力测试,并根据测试结果推荐其学习与能力相适应的课程。

欧洲共同语言能力分级(A1入门级 A2基础级 B1进阶级 B2高阶级 C1流利级 C2精通级)为基础,划分语言学习者的能力等级。

2.1.4 语篇模式教学系统

这也是本项目的其中一大特色。我们将根据交大外院教师丰富的教学经验,结合翻译平台系统的建设,为公众提供一种创新性的基于真实语境的语言教学方式,并提供可量化的教学评估,向实证教学模式转变。本系统由四大模块构成。

(1)语篇分析模块。基于建成的海量语料库,通过文本分析与数据检索技术,对语篇进行引言、研究方法、数据结果、讨论等方面的分析。系统设定有最适语篇教学长度,也可自行选定语篇长度。

(2)常用句子结构分析模块。基于频数和概率分析技术对句子结构分析,归类出生活中或具体行业中常用的文献句子结构,显示对应语料库中的语篇,从而给英语的写作与翻译学习给出指导。

(3)常用词组、搭配模块。基于频数和概率分析技术,提取双语语料库的常用词组及其搭配进行分析、练习,掌握生活中或具体行业中常用词组搭配习惯和技巧。

(4)自我练习翻译模块。在本模块中,学生可自行选定需要练习的内容,将练习译文与语料库范文对比。本模块基于双语文本语块模糊与精确匹配技术,通过句式模板对比、同义词对比、语义相似度对比,对用户自我翻译质量提出评价以及相应的建议。

2.2 技术创新特色

本项目的核心创新点主要体现在如下几个方面:

(1)基于真实语言应用的翻译研究和开发。本研究有别于传统的基于理论模型的翻译模式。传统的机助翻译研究往往从某个理论模型出发,脱离真实语言应用;理想的模型在真实文本面前往往捉襟见肘。而基于真实语言使用语料的翻译研究则需要多种复杂的技术。

(2)采用基于频数和概率的计算机智能分析方法。语言经常表达的意义、经常使用的语言形式和实现的功能是最核心的内容,是翻译研究的重点,基于频数和概率的方法较为有效地解决有关的翻译问题,而基于规则的传统翻译模式却无法实现。

(3)以语块为基本翻译单位的机助翻译。在真实的语言中,语块是一个具有一定意义的翻译单位,能准确表达其在文本中的含义。基于语块匹配的机助翻译,可以实现最准确的语义翻译状态。传统的机助翻译主要基于单个词,这在文本使用中意义容易发生改变,产生歧义。而目前国外所开发的机助翻译软件一般均以单个句子为翻译单位,翻译过程中出现较为常见的翻译匹配缺失现象。

英汉互译平台及行业专用翻译软件的表现形式的特色和创新体现在如下几个方面:

(1)界面表现形式创新,有助于使用者应用。传统的在线翻译界面或翻译软件主要有两个窗口:文本输入窗口和文本输出窗口。本项目除输入、输出窗口外,开设了基于语料库的具有多重选择的参考语句的窗口,可提供5句(种)具有最适匹配状态的译文语句,供译者选择。该窗口还可实现调用语句所处语料文本的功能,提供语段的语言环境;帮助在输出窗口实现翻译编辑。

(2)建立语料文本的语言质量评价和引用率系统。向译者提供参考语句语言质量评价和使用信息,帮助译者合理地选择翻译的参考语句,提高翻译文本的翻译质量;同时为翻译教学提供一种可评价的依据。在语料选用时即根据语义翻译的要求,按照译文质量确定选用语料的等级(一般为A、B、C三级)。

(3)简便操作系统。为提高翻译者的工作效率,本系统着眼于尽量减少使用者键盘输入的繁琐操作,整个文本的机助翻译过程只需鼠标轻松操作即可。

3 综述

语料库的建设是基于真实语境的,因此,以语料库为基础建立的语言服务平台包含的内容也是基于真实语境的,这将对机助翻译、语言学习、语言测试、语言教学起到良好的促进作用。

参考文献

[1] 贺宏志,陈鹏.语言产业导论[M].北京:首都师范大学出版社,2012.

[2] 傅荣.《欧洲语言共同参考框架:学习、教学、评估》述评[J].国际汉语教学动态与研究,2008(4).

[3] 梁茂成,李文中,许家金.语料库应用教程[M].北京:外语教学与研究出版社,2011.

[4] 胡开宝.语料库翻译学概论[M].上海:上海交通大学出版社,2011.

猜你喜欢
语言服务语料库
《语料库翻译文体学》评介
基于语料库“隐秘”的词类标注初步探究
提升河南博物院对外语言服务能力 促进河南良好国际形象建构
《中国企业“走出去”语言服务蓝皮书》解读
技术传播视角下的复合型翻译人才观
浅析中国企业“走出去”的现状和对语言服务的需求
基于免费在线翻译工具的机器翻译缺陷探讨
基于JAVAEE的维吾尔中介语语料库开发与实现
安徽企业国际化发展趋势与语言服务需求调查研究
基于网络语料库的“给力”研究