《作为语料库的互联网:理论与实践》述评

2020-05-25 22:02金明珠刘洋
科学与财富 2020年9期
关键词:引擎

金明珠 刘洋

摘 要:网络语料库(Web As Corpus)指的是把互联网视作一个文本语料库,应用Google等搜索引擎或WebCorp等专用检索工具为检索手段创建语料库。互联网以其开放性及不断的增长的巨大文本数量日益成为语料库重要的数据来源,可以弥补封闭的语料库的呈现的语言动态发展不全面的不足,对语言发展变化研究的重要性越来越高。据此,本书以语料库与网络关系为背景,介绍了如何运用语料库语言学和计算机语言学的理论,利用互联网创建语料库的系统实践。该书的作者MaristellaGatto是意大利Bari大学现代语言系的高级研究员和讲师。

关键词:网络语料库;引擎;WebCorp

一、内容简介

本书共分为7章,每章后均配有动手实践,和延伸阅读环节,既可用作教学和培训的教材,也可用作自学入门的实用读物。

第一章结合BNC(British National Corpus)语料库回顾了语料库的核心概念,包括真实性,代表性,均衡性,取样,大小,构成及语料库分析工具如词表,关键词列表,索引等,为进一步介绍语料库应用扫清障碍。

第二章辩证地看待了互联网作为语料库的合适性问题。互联网检索出来的网页其组织结构与传统语料库截然不同,而且无法某些网络文本的真实写作时间,文本作者的文化背景,及文本之间的可比性。此外,互联网网页上的许多超文本格式交叉引用大量超链接,存在很多信息噪音。但是互联网提供的文本数量巨大,里面包含更多的单词及短语共现样本,因此互联网已被广泛地视为具有极大潜能地语言数据资源,对它包含的文本的研究可以看作是其所代表的语言及文类的研究,所得出的结论对语言运用及语言理论建设具有划时代的意义。

第三章中作者介绍如何使用互联网通用搜索引擎的爬行功能,索引功能,搜索功能,排序功能等基本功能,搜索特定词和短语的用法。本章还详细地展示了谷歌搜索引擎的高级搜索功能如布尔数学体系,还展示了如何不断精确关键词和使用通配符来加强检索式的限制性,达到语义聚类或限制语法结构的目的。

第四章介绍了互联网进行索引的个性化语言学检索引擎WebCorp Live和WebCorp project等第四代语料库分析工具(McEnery&Hardie,2012),其原理就是研究者使用谷歌搜索引擎下载含有目标关键词的网页文件,随后细化检索标准,深入进行二次检索和分析,网页会呈现更丰富的上下文语境和更精确的使用频率,检索结果呈现KWIC(关键词居中)模式,还可提供词频表,方便统计搭配词和执行其他分析与运算,被作者成为“网络小宇宙”。

第五章展示了如何通过使用BootCat工具快速创建专门化的线下语料库。BootCat(Baroni,&Bernarnidi,2004)是一款免费的自动上网收集语料并创建临时语料库的工具,其原理是依靠用户提供的关键词,在网上收集和关键词内容相关的网页然后构建一个临时语料库(ad hoc corpus)。基本的做法是在网络上搜索的关键词(称为Seeds),BootCat会根据Seeds自动生成Tuples(关键词的组合),然后依次输入其他的搜索条件,软件会自动创建语料库。

第六章的题目是大型网络数据库的语言和文化扫描,作者介绍了一些大库容的多语言普通用途网络语料库,比如TenTen collection的库容超过100亿词。随着自然语言处理技术和计算机处理能力提高,Sketch Engine(Kilgariff et al.,2004)工具应运而生的,可以用其对这些大库容网络语料库进行检索。它基于“搭配与词义对应”的理论,是一种高效率的语言信息提取工具,它本身是一个数据库,在词语搭配与语义之间架起一道桥梁,将大型语料库中的语言信息进行有效的汇总。

第七章讨论了web2.0对语料库语言学的影响,指出了第二代网络技术使得信息实现了双向传递,网络成为用户进行参与的平台,互联网使用者可以根据需要对各种资源进行加工,编辑和整理,终端用户可以实时更新网络内容

二、简评

本书是第一本系统性描绘利用互联网进行语料库建设的书籍,锐意求新,传授了利用互联网创建语料库并进行应用的技术和方法,对于语料库语言学和计算机语言学领域作出了巨大贡献。在语言学研究领域利用网络来建语料库可以看作对应用传统语料库得到的结果的有益补充。

(1)本书是全新的认识论。

传统的观点认为互联网因其非为指定语言学特定研究领域而建,缺乏标准语言学语料库意义上的系统性和典型性特征,本书从互联网和语料库交叉的角度展开对数据的认识,强调作为语料库的互联网因其涵盖的语言数量众多的文本,在文本类型与题材类型方面有动态化的特点,并且能记载动态的语言变化,因而能成为重要的语言学研究中的语料库资源。这种观点拓宽了语料库研究的范围,具有前瞻性的指导意义,推动了计算机语言学的发展,对语料库语言学从业人员,培训者和研究人员都有启发意义。

(2)本书为将互联网作为语料库提供方法论指导。

本書3-6章围绕如何利用互联网创建语料库的研究问题展开,实践的技术方法,步骤,工具均服务于研究的目的。所用案例均来自真实的研究实践,同时具有开放性,有助于举一反三。书中使用的快捷和应用广泛的WAC(Web as Corpus)各种建库方法对操作步骤的介绍详细,清晰,操作性和可行性强,为众多想利用互联网作为语料库的研究者提供了方法论的指导,启发他们自动化和半自动化地建立单语语料库和双语语料库。

(3)本书为其他学科比如翻译提供了很好的启示。第三章的结尾就是根据互联网的数据进行翻译实践,这能从另一种的方式证明利用网络作为语料库的实际性。

但本书探讨利用互联网创建语料库时,语言仅限于英语和意大利语,但是语言本质的区别必然导致对译的不同,而这些不同会导致搜索结果的不同,无法判断本书的研究成果适用于所有的语言类型。此外,网络语言学被称作语料库语言学的第四代,作为一个新兴的领域,它还有很多问题亟待解决,比如语料库构建方面的语料库设计(语料库构成,语料库评估,抽样策略和爬行算法式,处理复制材料)以及专业性更强的方面(文本清理和标注,以及大规模的平行化以期达到互联网规模的语料库建构),以及系统的评估作为互联网语料库与传统的语料库的区别等,这些方面都亟待解决,任重而道远。

参考文献:

[1]Baroni,M.&S. Bernarnidi .2004 . BootCat: Bootstrapping corpora and terms from the web[R]. Paper presented at the 2004 LREC, Lisbon, Portugal,2004.

[2]Davies, M. 2014. Making Google Books n-grams useful for a wide range of research on language change[J]. International Journal of Corpus Linguistics 19 (3):401-416.

[3]Kilgarriff A. et al. 2004.The Sketch Engine[R], Paper presented at the 2004 Euralex, Lorient, France, 2004.

[4]McEnery, T. &Hardie A. 2012.A Corpus Linguistics:Method, Theory and Practice [M]. Cambridge: Cambridge University Press.

基金项目:本文系“湖北工业大学2019年度大学生创新创业训练计划项目-无障碍电影制作与开发(S201910500079)”研究成果;“湖北工业大学2018年度大学生创新创业训练计划项目-荆楚漆器外宣翻译及传播路径研究(201810500049)”研究成果。

作者简介:

金明珠, 1997年,女,安徽人,湖北工业大学外国语学院2015级英语4班学生

刘洋,1979,女,内蒙古自治区人,湖北工业大学外国语学院教师

猜你喜欢
引擎
以学促干 挺膺担当 激活砥砺前行的红色引擎
江阴市“三个创新”打造危化品安全监管新引擎
新海珠,新引擎,新活力!
消费继续发挥经济增长第一引擎作用
三生 三大引擎齐发力
蓝谷: “涉蓝”新引擎
休闲垂钓 传统渔业新引擎
信息化,“盛京”加速的新引擎
无形的引擎
基于Cocos2d引擎的PuzzleGame开发