大数据背景下互联网翻译的理念与模式

2022-05-30 10:48王东江王颖
电脑知识与技术 2022年16期
关键词:大数据

王东江 王颖

摘要:文章在深入了解互联网翻译的发展脉络基础上,对现阶段大数据背景下互联网翻译的理念与模式进行了分析与探讨。文章主要通过群众合作翻译、云计算平台翻译、机器学习翻译这三大技术角度解析了现阶段互联网翻译具有的优势与弱点,并提出了引入专家模式人机结合等人机联动的改进方案。在此基础上,人们为了实现让人和译文更加的和谐,大数据背景下的互联网翻译对机器算法的研究与人机融合正在不断的加深。因此该文也明确了互联网翻译的最终发展方向是让人们使用更加方便,让翻译速度更加迅速,让翻译结果更加精确。

关键词:大数据;互联网翻译;翻译理念;翻译模式

中图分类号:TP393        文献标识码:A

文章编号:1009-3044(2022)16-0031-02

1 研究意义

翻译学的研究对人类文明的多元化传承至关重要,其中针对翻译学的翻译理念与模式的研究就对翻译学本身的蓬勃发展起到了不可估量的作用。自严复提出“信、达、雅”之后,又有“忠实、通顺和美”“不增不减”“神似”“化”等翻译理论相继出现[1]。直至今日,翻译理论模式主张极多,也各据其理。然而随着互联网信息技术的蓬勃发展,现代翻译学已经搭上了信息时代的快车,其中互联网翻译的理念与模式也越来越被翻译人员所重视。

互联网翻译受到人们的青睞主要是因为其有三大特点:迅捷、普适、开源。其中互联网翻译的迅捷性体现在只要存在互联网,人们就可以在互联网中查询海量数据资料通过网络完成对译文的快速翻译,而不受地理条件和查询文献资料的约束[2]。互联网翻译的普适性则体现在大数据背景下,我们往往可以通过机器学习算法给出大众都较为认可的对译文的翻译结果。互联网翻译的开源性也使得人们可以使用免费的开源翻译软件进行翻译工作,降低翻译成本,同时反哺开源软件提高其翻译能力[3]。正是因为互联网翻译具有以上优良的特性,要想让互联网翻译更好地和谐发展,那么专门针对互联网翻译的理念与模式的研究就迫在眉睫。如图1所示,处在大数据背景下的互联网翻译,对其翻译的理念与模式研究可以让我们更好地使用互联网翻译,并使得互联网翻译能够变得更加准确、快速、灵活。

2 研究背景和发展脉络

首先让我们了解什么是互联网翻译,互联网翻译最初的概念是借助互联网,翻译工作者通过网络从事翻译任务,进行把某种语言文字的意义用另一种语言文字表达出来的一种创造性的语言活动[4]。

在互联网诞生之后,人们逐步地通过网络交换并共享信息资源,随着互联网上的各式各样的资源逐步累积,翻译工作人员也发现了利用互联网可以较快地获取翻译所需资料,并且获取的资料内容更加的全面,可以更好地帮助他们完成翻译工作[5]。如表1所示,互联网翻译的发展脉络主要有三个阶段。在互联网翻译开始之初,互联网更多的是被翻译人员当作一个查询工具(互联网上存在着不少常见的词典数据以及文章著作等科研相关内容)进行使用,利用互联网上查阅到的资料,翻译人员人工整合出最后的翻译成果。再后来,互联网中的信息资源越来越多,像谷歌、百度等搜索引擎逐步出现,人们已经可以利用相应的网络查询能力直接将不同的语言之间进行转换,即机器翻译的萌芽[6]。在这个时期的互联网翻译,基本能够实现词组简单句之间的简易替换,但是往往对于语法的严谨程度和词汇的精准程度上仍然不尽如人意。现如今,大数据时代到来,大数据正以数据摩尔定律迅速增长,因此在互联网上已经存在着对各种语言足够多的转换样本数据,与此同时,互联网相关业务逐渐更加精细化,对于翻译业务也一样,一些专门进行翻译工作的互联网软件也相继被开发出来,如早期的东方快车、谷歌翻译等翻译软件层出不穷[7]。在大数据背景下,这些翻译软件之间实现翻译功能的理念与模式具有很大的差距。比如有道翻译实现翻译的原理是利用搜索引擎进行网络释义的,也就是说它所翻译的词释义都是来自网络。与之有较大不同的腾讯云翻译则利用了大数据时代应运而生的云计算平台,虽然其大部分词汇及文章的翻译结果仍然来自网络,但是腾讯云翻译的数据结果往往是由云计算平台拆分成多个执行任务之后,再将其交给多个服务器所组成的庞大系统集群,经过搜寻、计算和分析将最终处理结果回传给用户[8]。腾讯云翻译这种互联网翻译的原理与模式,利用大数据和云计算的优势引入大量计算集群,使其具有了很强的数据处理翻译能力的同时还有规模大、安全性强、可扩展和可以进行按需服务等特点。

我们可以看到现在的互联网翻译的理念模式更好地迈向了对相应翻译软件平台的开发和优化。其发展的目的也更加清晰明了,即在更加方便用户使用的基础上,更快、更好地为用户提供翻译服务。更多系统平台的翻译软件的开发,打破了Web2.0时代的只有网页应用可以进行互联网翻译的局限性,使得能够使用互联网翻译的人员大大增加,扩展了互联网翻译的用户面。与此同时,借助大数据、云计算、虚拟化等现在最新科学技术,使得互联网翻译的结果更加准确和高效。

3 互联网翻译现阶段主要理念和模式

在互联网翻译出现之前,翻译领域的学者们已经建立了一些基于不同理论观点的翻译模型,如奈达和贝尔的翻译理论模型。奈达的翻译理论模型是基于结构主义语言学理论的,基本没有涉及译者在翻译过程中的思维活动[9]。而贝尔则根据心理语言学和人工智能的研究成果,系统地借用了多门学科的原理,对翻译过程进行了研究探索,提出了翻译的心理理论模式[10]。传统的翻译理论模型,大都采用规定性的方法,即先确定翻译需要遵守的原则,再进行原文与译文的比对工作,主要是探讨译文是否满足“对等”或者“信、达、雅”。在互联网翻译中的理念与模式随着大数据时代的到来变得不仅仅是满足规定性,同时也更加的科学和高效。

现如今互联网翻译在大数据背景下的理论与模型主要有三个相关模式如表2所示:1)群众合作翻译;2)云计算平台翻译;3)机器学习翻译。群众合作翻译的最初雏形是从各种网络论坛中发展而来的,比较著名的有Facebook等Web2.0时代的巨头,还有国内著名翻译论坛译道论坛等都具有一定性质的群众合作翻译模式的影子[11]。群众合作翻译模式最大的特点就是群策群力,他们利用在论坛或者圈子中能够调动的资源,共同协力完成对作品的翻译任务。整个过程的特征就是具有很大的开放性,因为很多翻译结果的产生经过了很多人的堆砌与共同推敲,这也很好地体现出了互联网翻译的开源特性。

目前互联网翻译的理论与模式的主体是云计算平台翻译和机器学习翻译。其中云计算平台翻译是指通过虚拟化技术,把极多的物理资源组合起来连入互联网,搭建一个可以通过互联网随时操作使用的云计算平台,最后使用该平台完成相应的翻译工作[12]。通常来讲云计算平台往往应用大数据处理技术来完成对数据的操作,翻译亦不例外。其中的核心思想主要有两个,一个是“分而治之”,另一个核心思想是“计算向数据靠拢”。所谓“分而治之”比较容易理解,即把一个相对大型的任務划分成多个比较容易处理的小任务,再把这些小任务分别交给一个处理计算单元去分别完成对应的工作,最后进行所有结果的整合。这如同先把一篇需要翻译的文章,划分成很多个小段,交给多个CPU进行在语料库中进行智能化匹配工作,最后将得到的结果进行整合。这样一篇译文就已经出现。可以看到,通过这种方法大大降低了单个CPU的任务量,大大减少了服务器硬件的工作压力,这也使得在大数据背景下大量的文本的快速翻译的实现变得可能及高效[13]。 “计算向数据靠拢”,指的是,人们通常对数据的处理思想是把一次计算所需要的数据都放到一台电脑上,然后利用一个CPU进行这些数据的处理,但是大数据的思想则是在离数据最近的地方找到相应的计算CPU完成数据的处理,这样做减少了大量数据传输时资源的消耗。这个法则同样适用于互联网翻译,类似于腾讯云翻译就使用了相应的技术,保证在尽可能短的时间里完成翻译工作[14]。

机器学习翻译在大数据时代更加专注于对数据的处理,在进行翻译的过程中不再一味地要求进行简单的规则对等性翻译,而是在追求人工智能方面的解决方案,比如提出基于神经网络的翻译系统和基于词频等统计学的翻译系统[10]。不同的机器学习算法对翻译的精确度和速度都有着很大的影响。现在流行的使用神经网络来架构的机器翻译主要有两类,一类是依旧使用统计机器翻译系统为框架,利用神经网络来改进其中的取词对比模块,而另一类就是直接应用不同的神经网络来直接将源语言序列映射成目标语言序列。机器学习翻译有着自己独特的优势,对现阶段图片、语音等不规则的非结构化的翻译任务,机器学习翻译也有很强的解决能力。

4 互联网翻译发展方向

大数据背景下的互联网翻译的理念和模式在现阶段仍然不断向前发展,云计算平台翻译和机器学习翻译在演化的过程中,为了追求更快和更准确的翻译结果,对执行的翻译匹配算法的要求都极高,但是往往算法也存在着极限,对于不同语境下的同义词之类的翻译仍然可能出现翻译歧义的可能性,某些需要大量联系上下文的特殊语法和规则即便如今如此成熟的机器学习算法有时也相形见肘。例如现在的一些网红词汇就很容易发生歧义性,如“yyds”在常规的翻译中可能由于统计学等算法会被翻译成“永远的神”,但是这种释义往往是出现在电竞圈中,而在一些小众语境中则可能需要被翻译成“永远单身”这种释义。在发现有这样难以解决的问题的时候,人们引入了专家模式的理念,即对于部分翻译要求精准度较高的翻译任务采用人机混用的方式完成。首先对翻译任务使用机器翻译来完成大部分的框架任务,把这部分翻译半成品按照不同的学科进行技术分类,接下来划分给相应领域的专家团队,专家会利用他们的专业知识完成最终的翻译作品。这样完成的作品基本上保证了作品的权威性,提高了翻译作品的质量,也一定程度上减少了神经网络算法的编写压力。

可以看到我们在追求互联网翻译自动化的同时也在努力保持着人与机器的平衡。只有这样才能在大数据时代充分发挥大数据技术先进性的同时也让翻译人才发光发热。

5 总结与展望

无论是传统的翻译方式还是互联网翻译方式,都在体现人与译文之间的和谐。在大数据时代互联网翻译的理论和模式也在追求这一点,人们未来的研究方向一定是不断地迈向让机器更加的智能,像人类一样更加理性,最终使得翻译的结果也更加人性化。这就要求我们使用的相应算法越来越精妙,同时也需要把社会中的高端翻译人才和互联网翻译结合起来,只有这样才能让翻译的成果更加的权威可信。最后向着我们所追求的“信、达、雅”不断地衍生发展,让翻译的速度更加的快捷、让翻译的结果更加的精准。

参考文献:

[1] Doherty S.Issues in human and automatic translation quality assessment[J].Human Issues in Translation Technology: The IATIS Yearbook,2016:131-148.

[2] 肖开容.“遭遇”第四范式的浪潮:大数据时代的翻译研究[J].外语学刊,2018(2):90-95.

[3] 王家义,李德凤,李丽青.大数据背景下的互联网翻译——开源理念与模式创新[J].中国翻译,2018,39(2):78-82.

[4] 郁青青.大数据背景下计算机辅助翻译模式的创新与发展研究[J].淮海工学院学报(人文社会科学版),2019,17(12):45-47.

[5] 王少爽,覃江华.大数据背景下译者技术能力体系建构——《翻译技术教程》评析[J].外语电化教学,2018(1):90-96.

[6] 詹卫东.大数据时代的汉语语言学研究[J].山西大学学报(哲学社会科学版),2013,36(5):70-77.

[7] 王华树.大数据时代的翻译技术发展及其启示[J].东方翻译,2016(4):18-20.

[8] 邵晓燕,魏本超.大数据背景下对翻译认知的再思考[J].海外英语,2018(15):129-130.

[9] Xue T.Using big data technology to assist in analyzing the influence of cultural context on the translation of English and American literature[J].Journal of Physics:Conference Series,2020,1648(3):032058.

[10] Liao J.Research on “precise translation” of commercial advertising based on big data[J].Journal of Physics:Conference Series,2021,1744(3):032121.

[11] Huang J.Using big data technology to assist in analyzing the language differences between English and Chinese cultures and translation capabilities[J].Journal of Physics:Conference Series,2020,1648(2):022113.

[12] Duan H F,Chen Y C.Small study in the big data era:application of network information resources in Japanese learning and translation studies[J].IOP Conference Series:Materials Science and Engineering,2020,750(1):012046.

[13] Lawrence B. A Dozen Ways to Get Lost in Translation: Inherent Challenges in Large-Scale Data Sets[J].International Journal of Communication 2014(8):1727-1744.

[14] Members B D C.The BIG Data Center:from deposition to integration to translation[J].Nucleic Acids Research,2016,45(D1):D18-D24.

【通联编辑:王力】

猜你喜欢
大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路