乔姆斯基层级与自然语言语法①——从短语结构语法到非转换语法

2015-04-24 02:50满海霞梁雅梦
外国语文 2015年3期
关键词:乔姆斯基词库句法

满海霞 梁雅梦

(北京科技大学 大学英语系,北京 100083)

1.前言

20世纪40年代末50年代初,美苏局势紧张,美国政府大量培养俄语人才,军方斥巨资支持机器翻译研究,期冀对所截获的海量俄文情报实现机器辅助翻译。据以色列逻辑学家、范畴语法的创始人之一巴-希勒尔(Bar-Hillel,1964:1 -16)回忆,他在50年代于美访学,主要时间都在麻省理工电子实验研究中心做有关机器翻译的研究工作。乔姆斯基在《语言理论的逻辑结构》(1975:2-3)中隐晦提到,他1955年任教MIT时,获得了在此实验室做合作研究的机会,有幸做他一直想要做的那种交叉研究。我们可以推测那种交叉研究即为机器翻译研究。因为在同时期出版的《句法结构》一书中,乔姆斯基提到并感谢了3位读过该书手稿的学者,包括巴-希勒尔。可以想见,对于一位前来访学的逻辑学家,若非研究兴趣相同,又怎会请他来看自己的手稿且予以致谢呢。与其他单纯关注机器翻译的学者不同,乔姆斯基最感兴趣的问题,始终是如何构造、刻画自然语言的合适语法。这一思考之于机器翻译,可以转化为一个更基础的问题:在机器能够实现的语法中,哪种语法在生成力上恰好适合刻画自然语言,既不过度生成、也不过低生成。乔姆斯基在此阶段提出的语法的层级分类(后被命名为乔姆斯基层级)是对这个问题极好的探索和回答。

2.乔姆斯基层级与自然语言

乔姆斯基将语法按照生成能力分为四种类型:0-型语法、1-型语法、2-型语法和3-型语法,相邻类型的语法之间具有包含关系,构成一个生成力逐渐减弱的层级结构,如表1所示。不过,要理解乔姆斯基层级所列的各类语法、语言及相应的改写规则,首先需要明晰:(1)这里所讨论的语言是什么语言?(2)语言和语法之间具有何种关系?

表1 乔姆斯基层级

2.1 语言与语法

“语言”通常在广义和狭义两种情况下被使用。狭义语言即自然语言,如汉语、英语等,哲学上称之为日常语言,专指人类用来交流、接收和传递信息的表义符号串;广义的语言概念既包括自然语言,也包括各种人工语言,如计算机科学使用的“编程语言”、逻辑学中的“一阶语言”、“谓词语言”等。乔姆斯基层级的独到之处,在于它打破了自然语言与人工语言之间的界限,在广义上将所有语言一致看成由许许多多符号序列组成的、有规律的大类。抽象来讲,对于任意语言L,L都可以被看作一个由句子组成的集合。L中的字符串按照语法G排列组合生成L语句。语言L、语法G和L中的字符串集合(即词库,简记为Lex)具有以下关系:

(1)L=G*Lex

在这里,G可以看作是以Lex为定义域、L为值域的函项。也就是说,L中的字符串按照语法G的规定排列,就能得到合G语法的L语句。如果Lex是汉语词库,G是汉语语法,那么生成的L就是合语法的汉语句子。因此,构造生成语言L的语法G,就是寻找能够从L词库Lex生成L的函项G。反过来,G能否生成L,实际上说的就是G的生成力是否匹配那种语言的实际生成要求。生成力的强弱,与语法受到的限制条件有关。限制条件越多,语法的生成力越弱,反之,限制条件越少,生成力就越强。表1中每一栏中的改写规则相当于对该型语法的限制条件,语法类型越高,限制条件越严格。0-型语法不要求参与运算的符号之间具有任何依存关系,对于任意字符串φi和φj,都可以进行从φi到φj的改写。3-型语法最严格,要求字符串A在改写后,终端字符串必须都在其左侧(A→aB)或者都在其右侧(A→Ba)。Kimball在《语法的形式理论》(1973:26)一书中指出,乔姆斯基层级所展示的语言分类说明:3-型语言最简单,或者说复杂度最低,2-型上下文无关的语言次之,1-型上下文有关的语言最复杂。构建一个普遍语法理论所面临的问题,是确定到底自然语言有多“复杂”。

2.2 自然语言在乔姆斯基层级上

我们首先可排除3-型语言和0-型语言,因为3-型正则语法对于自然语言来说生成力严重不足。因为几乎在所有自然语言中,信念动词都允许嵌套使用,如例(2)中所示,但这种嵌套结构所对应的语言anbn却不能用3-型正则语法来生成。这是计算理论研究最基本的可证事实之一。(Martin,2011)

(2)妈妈相信妹妹知道我以为……小猫把鱼叼走了。

0-型不受限语法只是一个单纯的描写性的枚举机制,它对语句生成没有任何限制,所以利用此机制生成的不过是类似字典的语句列表,既有所有合语法的自然语言语句,也可能有不合法的语句,生成力过强。那么,自然语言应该在0和3之间的哪个位置?乔姆斯基(1956)在提出语法层级构想的同时,也抛出了这样一个问题:如果把自然语言完全看成词串的集合,它们是否始终落在“上下文无关语法”的范畴下?

此后,一大批语言学家在自然语言中积极寻找上下文无关语法不能生成的语言现象,如荷兰语和瑞士德语中的交叉依存现象①在荷兰语中,涉及多个动词短语的结构经常会呈现交叉依存的现象,比如“我看见西西莉亚喂犀牛”在荷兰语中的语序是“我-西西莉亚1-犀牛2-看见1-喂2”,两个动宾短语“看见西西莉亚”和“喂犀牛”中的动词和宾语呈交叉状,故称为交叉依存。瑞士-德语指在瑞士和北意大利部分地区使用的阿尔曼方言,这种语言也允许从句中进行这种交叉的依存嵌套。(Shierber,1985;Steedman,1996)。这些现象的存在说明自然语言有时候会超出上下文无关语法的生成能力,至于超出多少,Joshi(1985)以树嫁接语法为例回答了这个问题。Joshi指出,交叉依存等典型的非上下文无关现象不能通过上下文无关的改写规则得到,而是某种递归机制和辖域依存的直接结果,他将此类恰好描述自然语言的语法统称为柔和的上下文有关语法(Mildly Context- Sensitive Grammars,简称 MCSG),由柔和的上下文有关语法生成的语言为柔和的上下文有关语言,如自然语言。柔和的上下文有关语法在乔姆斯基层级上的位置如图2所示,它包含上下文无关语法同时包含于上下文有关语法。图1还标示了本文将集中讨论的几种常见语法在乔姆斯基层级上的位置。以下部分我们将从短语结构语法出发,探讨转换生成语法和非转换语法如何分别从不同维度,突破短语结构语法的上下文无关特征,实现期冀的上下文有关性。

图1 几种常见的自然语言语法在乔姆斯基层级上的位置② CCG为组合范畴语法,全称为Combinatory Categorial Grammar,详见 3.3 节。

3. 短语结构语法及其二维延伸

3.1 短语结构语法

短语结构语法是最早被用于生成自然语言语句的形式语法,它由一系列形式为X→Y(读作:X改写为Y)的改写规则组成,可以生成许多自然语言语句。比如,利用例(3)所给出的语法片段,我们可以反复改写,例如(4)所示,生成简单句(5)。

(3)(i)S→NP VP;(ii)NP→DN;(iii)VP→V NP;(iv)D→the;(v)N→man,ball等;(vi)V→hit,played,等。

(4)→S→NP+VP(i)

→D+N+VP(ii)

→D+N+V+NP (iii)

→The+N+V+NP(iv)

→The+man+V+NP (v)

→The+man+hit+NP (vi)

→The+man+hit+the+ball (ii,iv,v)

(5)The man hit the ball.

还可以向例(3)添加一系列规则来充实它所表达的语法,如不及物动词短语的转换规则(VP→V)、双宾语动词短语的转换规则(VP→V+NP+NP或VP→V+NP+PP)等等。但是,一旦尝试构造更精细的规则,短语结构语法就会暴露出一系列问题:其一,短语结构规则一旦对某部分语句改写完毕,便无法回溯其生成历史,故难以刻画人称一致、时态一致等一致性关系;其二,改写规则的使用顺序需予以规定,否则会生成不合法的语句,比如被动句中主宾语调换规则要用在动词时体一致规则之前,否则就会造成被动句中“施事”选择不当;其三,并非所有的短语结构规则都具有相同地位,有些是强制性的,生成语句时必须使用,有些则是选择性的,要在其他规则使用完毕之后才能使用,甚至不必使用。如果两类规则等同视之,会生成大量错误结构,等等。(Chomsky,1956,1957,1963)乔姆斯基认为,这几点问题归纳起来,均由于短语结构语法的所有规则处于同一平面,导致既难以区分规则的使用顺序,也不能回溯生成历史。有如在平面几何中意欲用两条直线表达一个三维空间,无论如何摆排,都很难呈现空间的全貌,甚至可能丢失很多特征。倘若增加维度将平面图变为立体图,问题迎刃而解。转换生成语法③Transformational-Generative Grammar,文献中亦简称为转换语法(Transformational Grammar)。的思想大致如此。

3.2 转换生成语法与非转换语法

给定一个句子,转换生成语法区分了“生成”和“转换”两个层面,首先由短语结构语法“生成”它的基础形式,然后对初始形式做一系列合语法的转换。有的转换是强制的,有的是可选择的,前者作用在基础形式上,是生成合语法语句必须做的一次或多次转换,如主谓一致、时态变化等。经过这类转换得到的句子已经合语法,组成该自然语言的中心部分,生成可以到此而止。如果对中心部分的句子继续使用选择型的转换规则,便生成一些带有衍生身份的句子,体现生成形式之间的衍生关联,比如主被动、疑问句、陈述句形式等等。(Chomsky,1956,1957)由此,转换生成语法解决了短语结构语法存在的几大问题。

转换生成语法经过不断修订、更新,采用移位、合并、特征核查等手段,对自然语言的生成精度越来越高,尤其对自然语言中纷繁复杂的依存关系、不连续现象,转换的方法行之有效(Carnie,2013)。但是,转换语法虽然非常成功,计算语言学家更加关心的是:有没有语法能够达到同样的生成效果,但形式上更简洁、更符合人们的直观感受呢?回答这个问题之前,我们不妨重新看一看语言、语法和词库的关系等式(1)L=G*Lex。先令语法G不变,根据常识,词库Lex越大,生成的L语句越多,由此可知“*”单调向上。为了生成某特定的自然语言L,令L不变,已知*单调向上,语法G与词库Lex因此呈反比关系:词库承载的信息越少,语法就愈加复杂,反之,词库承担内容多一些,语法便可以相应简便,即所谓的“大句法,小词库”和“小句法,大词库”。对于转换生成语法来说,由于词库中的语词只承载词类等简单信息,概括语言规律、解释和生成不规则现象等任务都落在语法G的身上,所以句法相对复杂。既然计算语言学家们希望生成自然语言的语法是更简单的、不使用转换手段的语法,最直接的解决方案就是以更丰富的词库换取更简洁的句法。因此,20世纪70年代末80年代初,出现了一系列适于生成自然语言的单层词汇主义语法,对于超出上下文无关语法生成范围的语言现象,它们的生成力与转换生成语法相等,但是部分甚至完全不使用转换手段,被统称为非转换语法,包括组合范畴语法 CCG(Ade&Steedman,1982;Steedman,1996,2000,2012)、线性索引语法LIG(Gazdar,1988)、词汇功能语法 LFG(Kaplan &Bresnan,1982)、中心语语法 HG(Pollard,1984),以及在HG基础上发展出来的中心语驱动短语结构语法 HPSG(Pollard,1994;方立、吴平,2003)等,共同构成了现代句法理论的非转换部分。更重要的是,Joshi、Vijay-Shanker& Weir(1991)证明,这些非转换语法弱等价于树嫁接语法,都属于柔和的上下文有关语法。

非转换语法把自然语言更近似地看作另一种计算机语言、一种编码系统,它们与转换语法不同,所加工的对象不是组成语句的语词,而是语词背后被编码的句法信息和句法特征。因此,每个语词都有一张属于自己的名片,名片上不但有对该语词的句法行为的描述,还可能包括一致、人称、格、时态、语义角色等特征。总之,名片上的信息越详尽,留给语法的压力就越小。虽然各语法的具体操作有所不同,但总体来讲,主要原则都是将句法上的多维度需求尽可能体现在词条上。本文将以信息处理性能相对较好,但在国内知名度稍轻的组合范畴语法CCG为例,具体说明它如何构建、规定其词库和句法规则,实现词库与句法规则之间的平衡。

3.3 CCG的词汇特征与非转换手段

Ades和Steedman(1982)指出,转换生成语法先建立表层结构,再通过转换进入深层结构等设想不能使其成为令人满意的分析器,去机器生成或者分析合语法语句。他们认为,自然语言语法可能更简单,仅通过向上下文无关的语法添加一些更强的语法规则即可得到。他们提出了单层的组合范畴语法CCG。CCG是对与短语结构语法弱等价的范畴语法的扩张,它在避免语法分层的同时保证了与转换生成语法相同的生成能力,因其能够“从左至右”处理文本,同步构建字符串的语义解释,更加具有信息处理上的优势。

CCG包括一个范畴词库和若干条范畴运算规则。在CCG词库中,每个词条A被赋予一个句法范畴X,X相当于对A的句法行为的编码。例如,(6)a中hit的句法范畴(SNP)/NP说明hit要先后分别向右和向左结合一个名词短语做其宾语和主语,最后生成一个语句,效果上等同于短语结构语法从初始字符串S和NP到终端字符串A的一系列改写规则。这样,CCG将转换生成语法的基本形式编码在语词的句法范畴之中。范畴之间最基本的运算规则只有两条,分别是向前和向后的函项应用规则,如(6)b-c,类似乘法中的分母消去,其中X、Y代表句法范畴。

(6)a.hit|- (SNP)/NP;b.John,Mary|- NP

b.X/Y Y→X

c.Y XY→X

在此基础上,CCG利用非转换手段获得类似转换效果的方法大致有三。其一,精细化范畴所带信息。比如为动词的主语论元增加下标值agr,代表其一致性特征,那么,hit的范畴为(7)a,hits的范畴为(7)b。NP3S的下标表示这个论元为第三人称单数,如果hits碰到范畴为NP3S的John,则可生成合语法的句子,如果碰见范畴为NPPL的复数名词“the men”,生成过程停止。这里最重要的一种操作是合一操作,两个范畴如果一个带有具体特征(如3S),一个带有一般特征(如agr),那么它们合一后得到更一般的那个特征,从而实现性、数、格等方面的一致。其二,为词条配备语义信息。CCG对语义的看法与转换生成语法不同,在CCG看来,句法非但不是自治的,还与语义之间具有一个透明的接口,二者一一对应。语义作用很重要,如,能够体现句法上看似复杂的约束关系。根据约束原则,像句子“Kimi likes himself”中照应词“himself”要在局部小句内受到“Kimi”的约束。在CCG中,主宾语间的这种约束关系可以直接体现在“hit”的语义中。(7)c为“hit”带照应词为宾语的词条(ANA表示照应词)。值得关注的是,其语义解释中,“hit”的宾语论元“anay”清楚体现了它与主语论元y之间的照应关系。对于在转换生成语法中要借助照应、空代词等假设处理的控制动词、tough移位等现象,CCG只需修订词条的语义解释即可实现。其三,适当添加句法规则。例(8)是CCG向经典范畴语法添加的函项的组合规则,可以直接对两个函项范畴进行贴合运算。一般认为,并列成分必须为相同类型,那么对于(9)中“might hit”与“likes”的非成分并列,仅用6(b-c)无法得到相同范畴,利用(8),“might”(句法范畴为(SNP)/(SNP))和“hit”在句法上先运算得到(SNP)/NP范畴的“might hit”,继而能够与“likes”并列。CCG比范畴语法增加了三条核心的函项运算规则,使得CCG不必借助拷贝、删除等手段,也能够有效地计算非成分并列等无界依存现象(Ades&Steedman,1982)。

(7)a.hit|- (SNP+agr)/NP

b.hits|- (SNP3S)/NP

c.hit| - (SNP+agr)/NP+ANA,+agr:λg.λy.g(hit((ana(y)(y))

(8)X/YY/Z(X/Z

(9)Kimi likes and might hit John.

4.结语

本文从乔姆斯基的语法层级观入手,讨论了语言与语法的关系,解答了自然语言语法应该在层级上哪个位置的问题,并由此展开,说明形式句法学的转换语法和一系列非转换语法如何实现弱等价的生成力。乔姆斯基的语法层级观蕴含着一种潜在的逻辑,一种语言和生成它的语法不一定是一一对应的,一种语言可能由多套语法生成,一套语法也可能适合生成多种语言。这样去看待当代形式句法探索自然语言语法的过程,我们得到了一幅前所未有的、更加客观的全景图像,它始于短语结构语法,为乔姆斯基的“转换语法”所逐渐取代,又因信息处理的需求而获得了一系列非转换的单层词汇主义语法。衡量这些语法合适与否的一个重要平台,就是乔姆斯基早年提出的语法层级。

为了寻找适合生成自然语言的语法,乔姆斯基揭掉了“生成自然语言的语法”(如短语结构语法)、“生成机器语言的语法”(如上下文无关语法)或者“生成含量词的语言的语法”(如谓词逻辑)的标签,把所有语法宏观地统一视之,发现了语法生成力的等级。遗憾的是,乔氏层级止步于此,没能深入下去进一步利用人工语言服务于自然语言的形式化研究。这条思路直到蒙太格语法产生之后才有所发展。此外,乔姆斯基层级被提出之后,并没有在语言学界产生应有的影响,就连乔姆斯基本人也鲜再提起,倒是成了计算机信息科学的一个重要概念。笔者认为,乔姆斯基层级因其高度概括的计算性特征,对于语法研究具有很好的指导意义:第一,在乔姆斯基层级上,一套关于语言的合适语法能体现出它所在层级上那一批理论的特点,因此,一旦有了一套比较成熟的语法,我们就可以根据实际需求,构造与它同层级、但在其他特定方面更加优异的语法理论。这也是非转换语法在转换生成语法之后相继产生的内在依据。第二,层级上每一种语法均有其计算特性,计算语言学对某些计算特性的偏好可以引导语言学家对语法理论的构造。由于乔姆斯基层级的计算特征牵涉到计算原理,由从事语言学研究的学者独自攻坚可谓难上加难,这就需要不断创造条件,让语言学家和计算科学家加强沟通与合作,才能取得令人满意的成果。这一点,正是我国语言学研究所急需的。

[1]Ades,A.& Steedman,M.On the Order of Words[J].Linguistics and Philosophy,1982(4).

[2]Bar-Hillel,Y.Language and Information[M].Massachusetts:Addison-Wesley Publishing Company,1964.

[3]Carnie,A.Syntax:A Generative Introduction[M].West Sussex:Wiley - Blackwell Publishing,2013.

[4] Chomsky,N.Three Models for the Description of Language[J].IRE Transactions on Information Theory,1956(2).

[5]Chomsky,N.Syntactic structures[M].The Hague/Paris:Mouton & Co,1957.

[6]Chomsky,N.On Certain Formal Properties of Grammars[J].Information and Control,1959(2).

[7]Chomsky,N.Formal Properties of Grammars[G]//The Handbook of Mathematical Psychology.New York& London:John Wiley and Sons,Inc,1963:323 -418.

[8] Chomsky,N.The logical Structure of Linguistic Theory[M].New York& London:Plenum.1975.

[9]Culy,C.The Complexity of the Vocabulary of Bambara[J].Linguistics and Philosophy,1985(8).

[10]Gazdar,G.Applicability of Indexed Grammars to Natural Languages[G]//Natural language Parsing and Linguistic Theories.Dordrecht:Reidel Publishing Company,1988:69-94.

[11]Kaplan,R.& Bresnan,J.Lexical-Functional Grammar:A Formal System for Grammatical Representation[G]//Bresnan J.The Mental Representation of Grammatical Relations.Cambridge,MA:The MIT Press.1982.

[12]Kimball,J.The Formal Theory of Grammar[M].New Jersey:Prentice-Hall,Inc.1973.

[13]Joshi,A.Tree Adjoining Grammars:How Much Context-Sensitivity is Necessary for Characterizing Structural Descriptions?[G]//Natural Language Processing-Theoretical,Computational and Psychological Perspective.New York:Cambridge University Press,1985:206 -250.

[14]Joshi,A.K.,Shanker-Vijay,J.& D.Weir.The convergence of Mildly Context-Sensitive Grammar Formalisms[R].1991.

[15]Martin,J.Introduction to Languages and the Theory of Computation.New York:Mc Graw Hill,2011.

[16] Pollard,C.Generalzied Phrase Structure Grammars,Head Grammars and Natural Language[D].Stanford U-niversity,1984.

[17]Pollard,C.& I.Sag Head-driven Phrase Structure Grammar[M].Chicago& London:The University of Chicago Press,1994.

[18]Pullum,G.& Gazdar,G.Natural Languages and Context-Free Languages[J].Linguistics and Philosophy:1982(4).

[19]Shieber,S.Evidence against the Context-freeness of Natural language[J].Linguistics and Philosophy:1985(8).

[20]Steedman,M.Surface Structure and Interpretation[M].Cambridge & London:MIT Press,1996.

[21]Steedman,M.The Syntactic Process[M].Cambridge&London:MIT Press,2000.

[22]Steedman,M.Scope taking:the Natural Semantics of Quantifiers [M]. Cambridge & London: MIT Press,2012.

[23]方立,吴平.中心语驱动短语结构语法评介[J].语言教学与研究,2003(5).

[24]满海霞.组合范畴语法及其计算性特征[J].毕节学院学报,2013(6).

[25]满海霞.关于逻辑语义学的句法系统[J].安徽大学学报,2014(4).

猜你喜欢
乔姆斯基词库句法
述谓结构与英语句法配置
一“吃”多用
输入法词库取证比较研究
句法二题
诗词联句句法梳理
教授读过的书有什么不同
Teaching methods in a Chinese Classroom
输入法词库乾坤大挪移
教授读过的书有什么不同
信息结构与句法异位