花园幽径句行进错位的计算语言学研究
上QQ阅读APP看书,第一时间看更新

第一节 花园幽径现象国外研究综述

1968年4月11~12日,位于美国匹兹堡(Pittsburgh)的卡内基梅隆大学(Carnegie-Mellon University)召开了《第四届发展语言学年会》(Fourth Annual Symposium on Developmental Linguistics),会议议题是发展语言学,并主要讨论了儿童语言认知这一话题。这些与会专家学者的论文在1970年由约翰威力父子出版公司(John Wiley and Sons)以《语言认知和发展》(Cognition and the Development of Language)为名结集出版。长达370页的文集囊括了发展语言学和儿童语言认知的多个方面,如《儿童言语中的派生复杂性和认知顺序性》(Derivational complexity and order of acquisition in child speech),《话语协议:儿童如何回答问题》(Discourse agreement:How children answer questions),《儿童关系概念的原始本能》(The primitive nature of children’s relational concepts)等。其中《语言结构中的认知基础》(The cognitive basis for linguistic structures)从认知角度阐明了贝弗的语言结构观。

在贝弗学术观点发表之前,哈佛大学认知研究中心(Center for Cognitive Studies,Harvard University)的米勒和麦基恩曾提出了句子表层结构先于处理,然后在转换规则影响下投射到深层结构的复杂性派生理论DTC(derivational theory of complexity)(Miller,1962;Miller & McKean,1964)。

复杂性派生理论是有关句子理解的理论,它认为句子在认知记忆中是以简单的主动核心外加一系列转换(a simple active “kernal” plus a list of transformations)构成的,句子解读的难易程度与句子理解过程中的转换次数成正相关,也就是说从深层结构向表层结构转换的过程中涉及的转换越频繁句子越难以理解。例如在下列三个句子 “The frog ate the bug”“The bug was eaten by the frog”和“Was the bug eaten by the frog?”中,核心部分都是ate,frog和bug,不同在于后两句是核心部分的变体,即(ate,frog,bug)+passive和(ate,frog,bug)+passive+question。这三个句子随着转换次数的增多,理解难度也逐渐加大。尽管这种理论由于无法得到系统性验证而淡出视线,但对句子理解需要借助句法分析的观点却是无可置疑的。

与此不同,贝弗提出了非转换性的句子解读策略,并尝试分析了为什么某些句子(如花园幽径句)需要耗费较长时间来理解以及为什么解码者容易陷入困境的原因。尽管贝弗的理论并不完整而且也不能提供一个较为系统的解决花园幽径句认知障碍的策略,但他从认知角度阐释了感知策略(perceptual strategies)取代复杂性派生理论的可能性,为后来感知策略理论的提出奠定了基础。

感知策略(Fodor,Bever & Garrett,1974)是针对复杂性派生理论的不足而提出来的。句子表层结构、底层句子表征和基于语义的表征解释是理解句子通常要涉及的三个方面。该理论认为在句法转换过程中复杂性派生理论无法解释句子理解中的很多情况。例如,“The police kicked the door down”比“The police kicked down the door”复杂,理应在认知中产生较长的感知时间,但在实际运用中却不产生认知解码的区别性。感知策略提倡者认为句子解码时,转换规则并不是必需的过程,有时可以根据浅表结构中的外显提示对深层结构进行推论,由于这些启发性推论(heuristic inference)具有认知层面的感知性,感知策略由此得名。例如,外显提示词“that”在“Fat people eat accumulates”中的缺失导致了它的感知难度要比“Fat that people eat accumulates”加大了许多。

1973年10月,《言语学习和言语行为杂志》(Journal of Verbal Learning and Verbal Behavior)发表了美国得克萨斯大学奥斯汀分校(University of Texas at Austin)福斯(Foss)和詹金斯(Jenkins)共12页的文章《歧义句理解的语境效应》(Some effects of context on the comprehension of ambiguous sentences)。文章利用实验进行歧义句的语境效应检验。首先他们挑选出80个被试并把歧义句分成可进行推断的语境组和无特殊语境关系的中性组。然后要求各组被试对歧义句的指定目标音素(a specified target phoneme)进行识别,并对反应时间RTs(reaction times)进行登记。当目标音素出现在歧义词之后时,两组被试的反应时间都要比同等情况下出现在非歧义词之后的反应时间要长(In both neutral and biased contexts the RTs were longer when the target phoneme occurred shortly after an ambiguous word than when it occurred after an unambiguous control word)。由此说明无论有无语境支持,歧义句都要比非歧义句占有更多的认知资源。作为特殊歧义现象的花园幽径句的解读需要多认知协调的假设得到实验支持。

与侧重实验的福斯和詹金斯不同,美国印第安纳大学(Indiana University)金博尔(Kimball)则提出了表层结构的句法分析理论。1973年发表于《认知》(Cognition)第二卷的论文《自然语言表层结构剖析七原则》(Seven principles of surface structure parsing in natural language)代表了金博尔的理论精髓。

金博尔认为,生成语法(generative grammar)在句子接受度方面有着传统区分(there is a traditional distinction between sentence acceptability),涉及语言行为(performance)、句子语法性(sentence grammaticality)和语言能力(competence)。通过对英语中哪些句子是可接受句(acceptable sentence)的描述,金博尔尝试建立一套模式来对输入句的表层句法树配列进行有效归约(to be operative in the assignment of a surface structure tree)。他重申这些句法剖析技术在某种程度上说是来源于计算机科学家为适用于机器语言所开发的程序技术(To some extent,these principles of parsing are modeled on certain parsing techniques formulated by computer scientists for computer languages)。金博尔的语言理解计算观点是较早讨论计算科学和语言进行结合的学者,实际上这种观点与计算语言学的发展形成了暗合。

简单来说,金博尔的七条原则包括:(1)自上而下原则(top-down principle);(2)右侧连接原则(principle of right association);(3)新兴节点原则(principle of new nodes);(4)双句饱和原则(principle of two sentences);(5)尽早闭合原则(principle of closure);(6)固定结构原则(principle of fixed structure);(7)即时处理原则(principle of processing)。

金博尔的自上而下原则认为通常情况下语法分析是从抽象向具体的转换,也就是说语法分析器从S节点开始并利用短语结构规则进行扩充。请见下例:

例3:The poor record the music.穷人录制音乐。

record具有一对二的关系(即名动两状态的认知关系),其解读可借助上下文无关文法CFG(context-free grammar)进行:

G={Vn,Vt,S,P}

Vn={S,NP,VP,Det,Adj,V,N}

Vt={the,poor,record,music}

S=S

P:

S→NP VP (a)

NP→Det Adj(b)

NP→Det N(c)

NP→Det Adj N(d)

VP→V NP(e)

Det→{the}(f)

Adj→{poor}(g)

N→{record,music}(h)

V→{record}(i)

上例花园幽径句的解读可以从两个方向展开,即自底向上剖析(bottom-up parsing)和自上而下剖析(top-down parsing)。

在自底向上剖析中,语法分析器从最具体的输入句开始在语法范围内不断向上归约,最后到达句法分析的终点S,句法分析成功。如果在归约过程中偏离了语法范畴,剖析系统会因无相关语法规则支持而被迫返回,形成回溯(backtracking)。例如,如果解码者开始就将record看成是动词,自底向上剖析的路径就是:1-2-3-10-11-12-13-14-15-16-SUCCESS。如果解码者首选record为名词就会产生花园幽径现象,解码者经过回溯后剖析成功,完全路径为:1-2-3-4-5-6-7-8-8-7-6-5-4-3(9)-10-11-12-13-14-15-16-SUCCESS。

1:The poor record the music

2:Det poor record the music (f)

3:Det Adj record the music(g)

4:Det Adj N the music(h)

5:NP the music(d)

6:NP Det music(f)

7:NP Det N(h)

8:NP NP(c)

9:Det Adj record the music(g)

10:NP record the music(b)

11:NP V the music(i)

12:NP V Det music(f)

13:NP V Det N(h)

14:NP V NP(c)

15:NP VP(e)

16:S(a)

SUCCESS

自上而下剖析与自底向上剖析路径正好相反,语法分析器初始位置不是具体的句子而是句法树的最顶端S,然后在语法规则的限定范围内向下扩展到句子。如果超出了语法规则的范畴或是采用的语法规则无法下行到具有语法、语义和语用意义的句子,剖析失败,系统产生回溯。该例record的动词词性如果得到选择,系统将顺利完成自动解码,请见下面系统解码的过程。

1#:S

2#:NP VP (a)

3#:NP V NP(e)

4#:Det Adj V NP(b)

5#:Det Adj V Det N(c)

6#:The Adj V Det N(f)

7#:The poor V Det N(g)

8#:The poor record Det N(i)

9#:The poor record the N(f)

10#:The poor record the music(h)

SUCCESS

当record的名词词性首先得到确认,系统将按照语法规则下行至无法解读为止。这时,系统回溯到正确的record动词词性的选择,重新进行句法分析。

1:S

2:NP VP (a)

3:Det Adj N VP(d)

4:The Adj N VP(f)

5:The poor N VP(g)

6:The poor record VP(h)

7:The poor record V NP(e)

8:The poor record V Det N(c)

9:The poor record V the N(f)

10:The poor record V the music(h)

FAIL

由上面的句法分析过程可以看出,如果record作为名词出现,整个句子就缺失了动词V,系统无法按照既有的语法规则进行分析(试比较拥有动词过去式read的句子“The poor record read the music”),所以系统中止运行。record作为名词的错误剖析路径为:1-2*-3-4-5-6-7-8-9-10- FAIL。

在自上而下的剖析中,当系统首先将record默认为名词,遇到中止运行后重新将record解码为动词,则会产生具有回溯性特点的花园幽径现象,这种折返性句法分析的路径为:1-2-3-4-5-6-7-8-9-10-10-9-8-7-6-5-4-3-2(2#)-3#-4#-5#-6#-7#-8#-9#-10#-SUCCESS。

由上面分析可以看出,基于语言计算观点的金博尔提出的自上而下原则,便于解码者在初期就能意识到不符合语法情况的存在并及时调整,从而减轻认知负担。例如,同样是错误剖析(将record视为名词),自底向上剖析在第5步“NP the music”能察觉到动词缺失,而在自上而下剖析中第2步“NP VP”就能看出由于record作为名词的中心语,VP不可能由the music扩展得到。所以金博尔认为,在认知承载范围内,自上而下剖析比自底向上剖析具有更高的效率。

在花园幽径句例3的自动剖析中,行进错位也带来了解码困难。系统的错位剖析如下:

Tagging

The/DT poor/JJ record/NN the/DT music/NN ./.

Parse

(ROOT

(NP

(NP(DT The)(JJ poor)(NN record))

(NP(DT the)(NN music))

(..)))

Typed dependencies

det(record-3,The-1) amod(record-3,poor-2) root(ROOT-0,record-3)

det(music-5,the-4) dep(record-3,music-5)

错位的词类细化中,record被标注为NN,即名词。这直接导致该句没有动词支撑,解码失败。

错位的句法剖析中,源于词类的标注产生的不是S,而是NP,即该句不是完整的句子,而是一个名词词组。与基于规则的解码不符。

错位的依存分析中,amod(record-3,poor-2)表示形容词 poor作为名词record的修饰语,形成adjectival modifer。dep(record-3,music-5)表示名词record和music形成的是依附关系dependent,即当系统由于各种原因无法在两词间判定它们清晰的依存关系时采用的标注关系。如“Then,as if to show that he could,…” 可表示为dep(show,if)。这些依存分析是基于record被标注为NN时的错位分析,无法实现系统的正确解码。错位形成的依存关系图如下:

图4 例3行进错位依存关系图

如图所示,该句不是完整的句子结构,错位形成的是无法判定关系的(NP(DT The)(JJ poor)(NN record))和(NP(DT the)(NN music))名词词组并列关系。对行进错位人工干预后的正确剖析结果如下:

Tagging

The/DT poor/JJ record/VBP the/DT music/NN ./.

Parse

(ROOT

(S

(NP(DT The)(JJ poor))

(VP(VBP record)

(NP(DT the)(NN music)))

(..)))

Typed dependencies

det(poor-2,The-1) nsubj(record-3,poor-2) root(ROOT-0,record-3)

det(music-5,the-4) dobj(record-3,music-5)

如上剖析可知,词类细化中动词record的标注为VBP,即动词非第三人称单数现在时(Verb,non-3rd ps.sing.present)。句法剖析中形容词poor和限定词the形成集合名词(NP(DT The)(JJ poor)),为完整S结构NP+VP。依存关系中,nsubj(record-3,poor-2)表示形容词poor结构形成名词性主语结构(nominal subject),dobj(record-3,music-5)表示名词music是动词record的直接宾语(direct object)。

图5 例3花园幽径效应依存关系图

通过行进错位和花园幽径句依存关系图对比可知,两图之不同在于限定词the的限定范围。在行进错位依存关系图中,限定词限定的是名词record,所以形成的是名词词组结构(NP(DT The)(JJ poor)(NN record))。在花园幽径句依存关系图中,限定词限定的是形容词poor,形成的是集体名词结构(NP(DT The)(JJ poor))。

金博尔的第二个原则是右侧连接原则。这个原则的提出和英语的使用习惯相关联。他认为向右扩展的语言节点通常习惯于和在语法树中最低的、非终点的节点进行连接,有时称之为相邻原则。这样的处理模式是由认知省力原则所决定的。

例4:I confirm that,as agreed,I have arranged for your Mr R.Simpson to deal with any matters arising in connection with the above during my absence on leave from 7-21 August 1993.本例源自英语国家语料库,网址:http://www.natcorp.ox.ac.uk/。正如约定的那样,我确认已经安排你们的辛普森先生在我于1993年8月7日至21日离开度假之际,全权处理与上面所提事情相关事宜。

按照金博尔的右侧连接原则,例4中的两个with 都与相邻的动词deal 或名词connection相关联,理解符合英语习惯,认知负载较小。

例5:I have arranged for Mr R.Simpson to deal with any complaints about National Health Service and the matters arising in connection with the problem of homelessness in the city during my absence on leave.我已经安排辛普森先生在我离开度假之际,全权处理对国家卫生服务的投诉和与城市无家可归问题相关事宜的投诉。

例5中,the matters引导的短语部分既可以是complaints about的邻接部分,也可以是deal with的邻接部分,金博尔认为处于语法树较低节点的部分更容易被解码者认知接受,所以,右侧连接原则决定了the matters引导的短语更应该是about的投射范围。如果违背右侧连接这种认知省力原则,容易产生花园幽径现象。

例6:I have arranged for Mr R.Simpson to deal with any complaints about National Health Service and the matters arising in connection with the problem of homelessness in the city must be discussed by the board meeting during my absence on leave. 我已经安排辛普森先生在我离开度假之际,全权处理对国家卫生服务的投诉,但与城市无家可归问题相关的事宜必须经董事会会议讨论。

例6中the matters的引导短语根据右侧连接原则优先与complaints about相关联,在must be discussed出现前,与例5的解读没有区别。但是,must be discussed出现后,语法要求主语不能缺失,认知系统出现回溯,产生花园幽径现象。回溯后,the matters的引导短语被确定为并列句的主语,句法分析结束。

通过以上分析可知,右侧连接原则源于认知省力和语言习惯,而且语法成分具有附着句法树中较低节点的优先性。对这种特性的违背,容易产生花园幽径现象。

金博尔的第三个原则是新兴节点原则。

引导词(限定词)的存在帮助认知理解回归原位。

例7:The tycoon sold the offshore oil tracts for a lot of money wanted to kill JR.本例源自G.Altmann1985年文章 “ The resolution of local syntactic ambiguity by the human sentence processing mechanism”,http://acl.ldc.upenn.edu/E/E85/E85-1018.pdf。那个被迫花了一大笔钱购买了近海油田的财阀想杀死JR.

G={Vn,Vt,S,P}

Vn={S,NP,VP,Det,N,Pron,Adj,SC,V,PP,AuxP,Aux,Prep}

Vt={the,tycoon,sold,offshore,oil,tracts,for,a lot of,mony,wanted,to kill,JR}

S=S

P:

a.S→NP VP

b.VP→VP NP

c.NP→Det NP

d.NP→N N

e.NP→Det N

f.NP→Pron

g.NP→Adj NP

h.NP→NP SC

i.SC→V NP PP

j.VP→V AuxP

k.AuxP→Aux V

l.PP→Prep NP

m.VP→V NP PP

n.Det→{the,a lot of}

o.N→{tycoon,oil,tracts,money}

p.Pron→{JR}

q.V→{sold,wanted,kill}

r.Aux→{to}

s.Prep→{for}

t.Adj→{offshore}

上下文无关文法CFG(Context-Free Grammar)中,G={Vn,Vt,S,P}表示该文法包括非终极符号Vn、终极符号Vt、起始符号S和程序符号P。程序P中表示系统解码需要的规则。由此,系统左角解码的具体程序如下:

The tycoon sold the offshore oil tracts for a lot of money wanted to kill JR Rules

Det tycoon sold the offshore oil tracts for a lot of money wanted to kill JR n

Det N sold the offshore oil tracts for a lot of money wanted to kill JR o

NP sold the offshore oil tracts for a lot of money wanted to kill JR e

NP V the offshore oil tracts for a lot of money wanted to kill JR q

NP V Det offshore oil tracts for a lot of money wanted to kill JR n

NP V Det Adj oil tracts for a lot of money wanted to kill JR t

NP V Det Adj N tracts for a lot of money wanted to kill JR o

NP V Det Adj N N for a lot of money wanted to kill JR o

NP V Det Adj NP for a lot of money wanted to kill JR d

NP V Det NP for a lot of money wanted to kill JR g

NP V NP for a lot of money wanted to kill JR c

NP V NP Prep a lot of money wanted to kill JR s

NP V NP Prep Det money wanted to kill JR n

NP V NP Prep Det N wanted to kill JR o

NP V NP Prep NP wanted to kill JR e

NP V NP PP wanted to kill JR l

NP V P wanted to kill JR m

S wanted to kill JR a

BREAKDOWN AND BACKTRACKING

动词sold过去式和过去分词同形是产生行进错位的根本原因。如果作为过去式解读,规则VP→V NP PP则被采纳,系统产生行进错位(breakdown)。错位后,由于表示解码终结的符号S已经出现,而字符串wanted to kill JR仍未得到有效解码,系统产生回溯(backtracking)。回溯节点是规则SC→V NP PP,即在对动词sold过去式和过去分词的同形选择中,不再选择过去式而选择过去分词。过去分词sold引导结构的依存关系由原来的nsubj(sold-3,tycoon-2)转变为vmod(tycoon-2,sold-3),即由tycoon作为过去式sold的名词主语(nominal subject)变化为过去分词sold是tycoon的动词修饰语(verb modifier)。回溯后的解码程序如下:

NP V NP PP wanted to kill JR l

NP SC wanted to kill JR i

NP wanted to kill JR h

NP V to kill JR q

NP V Aux kill JR r

NP V Aux V JR q

NP V Aux P JR k

NP VP JR j

NP VP Pron p

NP VP NP f

NP VP b

S a

SUCCESS

经历行进错位的回溯结构获得成功解码。例句中的所有字符串均得到有效归约,并最终获得表示解码结束的符号S,剖析成功。所构建的树形图如下:

图6 例7成功解码的树形图

树形图可清晰展现句法层级结构。图中可见,整个样例的最高级句法结构是S→NP VP。次级结构是NP→NP SC 和VP→VP NP。以此类推,直至剖析到终端符号。

图7 例7解码的递归转移网络

递归转移网络的引入使例7解码具有逻辑性。根据递归转移网络的构建规则,例7解码涉及主网络S net,子网络NP subnet,AuxP subnet,PP subnet,VP subnet和SC subnet。根据解码的逻辑性,我们构建了如下递归转移网络用于例7解码。

上图解码程序包括两部分:sold过去式解码和回溯后的sold过去分词解码。行进错位出现在sold过去式的解码中,具体的递归转移网络程序如下:

The tycoon sold the offshore oil tracts for a lot of money wanted to kill JR.

<S/0,The tycoon sold the offshore oil tracts for a lot of money wanted to kill JR,>

<NP/0,The tycoon sold the offshore oil tracts for a lot of money wanted to kill JR,S/1:>

<NP/1,tycoon sold the offshore oil tracts for a lot of money wanted to kill JR,S/1:>

<NP/1,sold the offshore oil tracts for a lot of money wanted to kill JR,S/1:>

<NP/f,sold the offshore oil tracts for a lot of money wanted to kill JR,S/1:>

<VP/0,sold the offshore oil tracts for a lot of money wanted to kill JR,S/f:>

<VP/1,the offshore oil tracts for a lot of money wanted to kill JR,S/f:>

<NP/0,the offshore oil tracts for a lot of money wanted to kill JR,VP/f:S/f:>

<NP/1,offshore oil tracts for a lot of money wanted to kill JR,VP/f:S/f:>

<NP/1,oil tracts for a lot of money wanted to kill JR,VP/f:S/f:>

<NP/1,tracts for a lot of money wanted to kill JR,VP/f:S/f:>

<NP/f,for a lot of money wanted to kill JR,VP/f:S/f:>

<PP/0,for a lot of money wanted to kill JR,VP/f:S/f:>

<PP/1,a lot of money wanted to kill JR,VP/f:S/f:>

<NP/0,a lot of money wanted to kill JR,PP/f:VP/f:S/f:>

<NP/1,money wanted to kill JR,PP/f:VP/f:S/f:>

<NP/1,wanted to kill JR,PP/f:VP/f:S/f:>

<NP/f,wanted to kill JR,PP/f:VP/f:S/f:>

<PP/f,wanted to kill JR,VP/f:S/f:>

<VP/f,wanted to kill JR,S/f:>

<S/f,wanted to kill JR,>

<,wanted to kill JR,>

?

BREAKDOWN AND BACKTRACKING

动词sold的过去式选择导致程序解码失败。在程序<NP/0,the offshore oil tracts for a lot of money wanted to kill JR,VP/f:S/f:>中,系统默认动词sold是主动词,进入的子网络是VP subnet。因此,在VP/f:栈中进行解读余下的字符串。但是,随着程序<S/f,wanted to kill JR,>的结果出现,系统无法解读wanted to kill JR这些字符串,遂产生行进错位,系统产生回溯。回溯后的程序解读如下:

<NP/1,sold the offshore oil tracts for a lot of money wanted to kill JR,S/1:>

<SC/0,sold the offshore oil tracts for a lot of money wanted to kill JR,NP/f:S/1:>

<SC/1,the offshore oil tracts for a lot of money wanted to kill JR,NP/f:S/1:>

<NP/0,the offshore oil tracts for a lot of money wanted to kill JR,SC/2:NP/f:S/1:>

<NP/1,offshore oil tracts for a lot of money wanted to kill JR,SC/2:NP/f:S/1:>

<NP/1,oil tracts for a lot of money wanted to kill JR,SC/2:NP/f:S/1:>

<NP/1,tracts for a lot of money wanted to kill JR,SC/2:NP/f:S/1:>

<NP/f,for a lot of money wanted to kill JR,SC/2:NP/f:S/1:>

<PP/0,for a lot of money wanted to kill JR,SC/f:NP/f:S/1:>

<PP/1,a lot of money wanted to kill JR,SC/f:NP/f:S/1:>

<NP/0,a lot of money wanted to kill JR,PP/f:SC/f:NP/f:S/1:>

<NP/1,money wanted to kill JR,PP/f:SC/f:NP/f:S/1:>

<NP/1,wanted to kill JR,PP/f:SC/f:NP/f:S/1:>

<NP/f,wanted to kill JR,PP/f:SC/f:NP/f:S/1:>

<PP/f,wanted to kill JR,SC/f:NP/f:S/1:>

<SC/f,wanted to kill JR,NP/f:S/1:>

<NP/f,wanted to kill JR,S/1:>

<VP/0,wanted to kill JR,S/f:>

<VP/1,to kill JR,S/f:>

<AuxP/0,to kill JR,VP/f:S/f:>

<AuxP/1,kill JR,VP/f:S/f:>

<AuxP/1,JR,VP/f:S/f:>

<NP/0,JR,AuxP/f:VP/f:S/f:>

<NP/1,,AuxP/f:VP/f:S/f:>

<NP/f,,AuxP/f:VP/f:S/f:>

<AuxP/f,,VP/f:S/f:>

<VP/f,,S/f:>

<S/f,,>

<,,>

SUCCESS

回溯程序证明sold作为过去分词的解码是正确的路径。在程序<NP/0,the offshore oil tracts for a lot of money wanted to kill JR,SC/2:NP/f:S/1:>中,我们可以看到系统由原来的栈<VP/f:S/f:>转变为栈<SC/2:NP/f:S/1:>,即sold和tycoon的依存关系不再被认为是具有nsubj(sold-3,tycoon-2)的主谓关系,而是变成了由动词过去分词修饰名词的成分关系vmod(tycoon-2,sold-3)。

算法矩阵可用于解释行进错位系统的解码程序变化。在例7行进错位产生前,由于字符串wanted to kill JR不能被系统解码,形成的算法矩阵呈现非良构子串表的特点,即不能在最大矩阵处归约为解码成功的符号S。行进错位的系统算法矩阵如下:

.0The.1tycoon.2sold.3the.4offshore.5oil.6tracts.7for.8a lot of.9money.10wanted.11to.12kill.13JR.14

表1 例7行进错位的算法矩阵

图8 例7行进错位的非良构子串表

从行进错位的算法矩阵和非良构子串表可以看出,解码的停顿出现在表1的浅灰色填充区域后,即wanted的出现带来了行进错位。图8中的终结符号S出现表示解码已经结束,但是随后的VP结构无法在系统中得到解码。因此,前期的解读不是最优模式,系统发生了回溯。回溯后SC→V NP PP和NP→NP SC的规则得到启用,所有的字符串都得到顺利剖析,解码在经历了行进错位后成功。请见完全解码后的算法矩阵和良构子串表。

表2 例7花园幽径句的算法矩阵

图9 例7花园幽径效应的良构子串表

从以上对花园幽径句的深入分析可知,行进错位源于动词sold的过去式和过去分词的同形。如果能够提供引导词that并形成句子The tycoon that was sold the offshore oil tracts for a lot of money wanted to kill JR,那么,系统便会很容易辨别出动词是过去式还是过去分词,也就不会出现行进错位和回溯。因此,引导词(限定词)的存在能够提升系统的剖析效率。这与金博尔的新兴节点原则相一致。

金博尔的第四个原则是双句饱和原则。他认为由于人脑认知瞬时解码内存的有限性,语法分析器同时处理具有两个S节点的句子或分句是可能的。如果同时处理的节点量超过这个数值,就会加重记忆负担,带来认知解码的延时性,速度放慢,效率降低甚至解码失败。这个原则从另一个方面说明了:为什么语言的递归性是存在的,但是在语言运用中却不能无限制使用。

例8:The data was the result of active processes of project.数据是项目积极推进的结果。

例9:The data the scholars investigated was the result of active processes of project.学者们调查的数据是项目积极推进的结果。

例10:The data the scholars the police chased investigated was the result of active processes of project.被警察所追踪的学者们调查的数据是项目积极推进的结果。

例11:The data the scholars the police the journalist interviewed chased investigated was the result of active processes of project.被记者采访的警察所追踪的学者们调查的数据是项目积极推进的结果。

例12:The data the scholars the police the journalist the children respected interviewed chased investigated was the result of active processes of project.被孩子们推崇的记者采访的警察所追踪的学者们调查的数据是项目积极推进的结果。

从上例的比较可以看出,含有一个节点S和两个节点S的例句在理解过程中认知负载较小,理解较顺畅。含有三个节点S的例句、四个节点S的例句和五个节点S的例句虽然符合语法规范,但是超出了瞬时认知解码的存储量,理解越来越困难,直至解码停顿。

金博尔的第五个原则是尽早闭合原则。句法分析过程中,当新节点出现后,解码者往往期待着找到符合语法规范的其他成分进行匹配,一旦匹配成功认知存储器便迅速闭合,以便于释放出更多的认知因子进行下一轮处理。这个过程是动态的、可逆的。所谓的动态是相对静态而言的。分配给认知存储器的单元量随解读量的大小而调整,往往呈现正相关分布,即句法分析越复杂的句子所占用的认知存储量就越大,处理器解读的时间就越长。所谓的可逆是相对模式而言的。在认知解码过程中,当为了节省更多记忆空间而尽早闭合的认知系统无法解读后续成分时,原来的既有模式便被打破,系统对新获得的信息连同既有信息进行重新排列组合,最后形成符合语法、语义、语用规范的新模式。没有认知可逆性的存在,既定模式不能更改,信息无法更新,正确的解码也难以实现。这个特点是认知系统成功解读花园幽径句的关键。

例13:The raft floated down the river sank.顺流而下的筏沉没了。

例14:She told me a little white lie will come back to haunt me.她告诉我说小小的善意谎言会重新困扰我。(Katamba:2005:263)

尽早闭合原则在上面两例中得到阐释。花园幽径句的解码中,蕴含了行进错位,其根本原因在于系统具有尽早闭合的优先剖析策略。请见上下文无关文法,以及基于该文法的行进错位的左角解码和回溯后的二次解码。

She told me a little white lie will come back to haunt me.

G={Vn,Vt,S,P}

Vn={S,NP,VP,N,V,Pron,Det,Adj,IP,Aux,Adv,SC}

Vt={she,told,me,a little,white,lie,will,come,back,to,haunt}

S=S

P:

a.S→NP VP

b.NP→N

c.VP→V NP NP

d.NP→Pron

e.NP→Det NP

f.NP→Adj N

g.VP→V NP IP

h.VP→Aux V

i.VP→VP Adv

j.VP→VP IP

k.IP→NP VP

l.VP→VP SC

m.SC→Aux VP

n.VP→V NP

o.Det→{a little}

p.Pron→{she,me}

q.N→{lie}

r.V→{told,haunt,come}

s.Adj→{white}

t.Adv→{back}

u.Aux→{will,to}

上下文无关文法表明,规则VP→V NP NP和VP→V NP IP的差别在于最后附着结构的选择上。如果认定 a little white lie 作为动词tell的直接宾语出现,则启动规则VP→V NP NP。如果系统认为a little white lie是后续分句的主语,形成的结构是子句,规则VP→V NP IP则被系统接受。对 a little white lie结构的附着范围的歧义选择导致了行进错位的出现。

She told me a little white lie will come back to haunt me Rules

Pron told me a little white lie will come back to haunt me p

NP told me a little white lie will come back to haunt me d

NP V me a little white lie will come back to haunt me r

NP V Prop a little white lie will come back to haunt me p

NP V NP a little white lie will come back to haunt me d

NP V NP Det white lie will come back to haunt me o

NP V NP Det Adj lie will come back to haunt me s

NP V NP Det Adj N will come back to haunt me q

NP V NP Det NP will come back to haunt me f

NPV NP NP will come back to haunt me e

NP VP will come back to haunt me c

S will come back to haunt me a

BREAKDOWN AND BACKTRACKING

左角剖析中,灰色填充部分的归约表明系统启用的规则是VP→V NP NP。随着表示解码成功的终结符号S的出现,系统默认解码结束。但will come back to haunt me字符串却在规则集中找不到相关的规则继续进行归约。由于未处理字符串的存在,解码失败,系统回溯到规则选择的岔路口。曾被弃用的规则VP→V NP IP显性化。

NP V NP NP will come back to haunt me e

NP V NP NPAux come back to haunt me u

NP V NP NP Aux V back to haunt me r

NP V NP NP VP back to haunt me h

NP V NP NP VP Adv to haunt me t

NP V NP NP VP to haunt me i

NP V NP NP VP Aux haunt me u

NP V NP NP VP AuxV me r

NP V NP NP VP AuxV Prop p

NP V NP NP VP AuxV NP d

NP V NP NP VP AuxVP n

NP V NP NP VP SC m

NP V NP NP VP l

NP V NP IP k

NP VP g

S a

SUCCESS

回溯后的剖析可见,系统认为字符串a little white lie应该是子句的主语成分,tell me 后续的是从句IP而不是名词词组NP。由此构建的树形图可清晰地展现这种层级关系。

图10 例14树形图

花园幽径句的树形图层级展现了系统解码的逻辑性。在自顶向下(top-down)剖析中,S→NP VP是最高层结构,VP→V NP IP是次高层结构,IP→NP VP是次次高结构。以此类推,直至系统将所有终端字符串剖析结束。这种系统解码的层级性通过递归转移网络也可以得到表现。

图11 例14的递归转移网络

递归转移网络包括主网络S net,子网络NP subnet、VP subnet、IP subnet和SC subnet。通过前面的分析可知,系统在处理规则VP→V NP NP和VP→V NP IP时会出现歧义。

在子网络VP subnet中,规则VP→V NP NP的启用路径是VP0→VP1→VP2→VP2→VPf。系统在VP0→VP1解码过程中,完成了动词tell的解码。VP1→VP2解码过程中,剖析了第一个N(NP)结构(即me)。在VP2→VP2解码过程中剖析了第二个嵌套子网络N(NP)结构(即a little white lie)。VP2→VPf是空集,跳过。

规则VP→V NP IP的启用路径是VP0→VP1→VP2→VPf。系统分别在VP0→VP1和VP1→VP2解码过程剖析了动词tell和N(NP)结构me。在VP2→VPf解码过程启动嵌套子网络IP subnet的剖析。

启动路径的不同导致规则不同,诱发系统行径错位。通过上面分析可知,两个规则的启动路径是不同的。VP→V NP NP的启用路径不仅比VP→V NP IP的启用路径多了VP2→VP2的解码过程,而且,后续的VP2→VPf是解码空集,没有字符串得到剖析。请看系统按照递归转移网络进行的解码程序:

<S/0,She told me a little white lie will come back to haunt me,>

<NP/0,She told me a little white lie will come back to haunt me,S/1:>

<NP/f,told me a little white lie will come back to haunt me,S/1:>

<VP/0,told me a little white lie will come back to haunt me,S/f:>

<VP/1,me a little white lie will come back to haunt me,S/f:>

<NP/0,me a little white lie will come back to haunt me,VP/1:S/f:>

<NP/1,a little white lie will come back to haunt me,VP/1:S/f:>

<NP/f,a little white lie will come back to haunt me,VP/1:S/f:>

<NP/0,a little white lie will come back to haunt me,VP/2:S/f:>

<NP/1,white lie will come back to haunt me,VP/2:S/f:>

<NP/1,lie will come back to haunt me,VP/2:S/f:>

<NP/f,will come back to haunt me,VP/2:S/f:>

<VP/f,will come back to haunt me,S/f:>

<S/f,will come back to haunt me,>

<,will come back to haunt me,>

?

BREAKDOWN AND BACKTRACKING

规则VP→V NP NP选择导致行进错位产生。剖析可见,在<NP/f,a little white lie will come back to haunt me,VP/1:S/f:>中,系统已经完成了对字符串She told me的剖析。对a little white lie 的解码启动了系统对歧义规则VP→V NP NP和VP→V NP IP的选择。在上面的剖析<NP/f,will come back to haunt me,VP/2:S/f:>中,我们可以看出系统选择的是NP/f,即默认字符串a little white lie是动词tell所在的栈中的一部分(直接宾语)。所以,随着解码的深入,分别表示子网络VP subnet解码结束的VP/f符号和主网络S net解码结束的S/f符号的出现,终止了系统继续剖析的可能。余下的字符串<,will come back to haunt me,>在栈中无法得到解读。系统产生了行进错位,遂回溯到歧义规则节点。请看系统回溯后重新采纳VP→V NP IP规则后形成的剖析程序。

<NP/f,a little white lie will come back to haunt me,VP/1:S/f:>

<IP/0,a little white lie will come back to haunt me,VP/2:S/f:>

<IP/1,a little white lie will come back to haunt me,VP/2:S/f:>

<NP/0,a little white lie will come back to haunt me,IP/1:VP/2:S/f:>

<NP/1,white lie will come back to haunt me,IP/1:VP/2:S/f:>

<NP/1,lie will come back to haunt me,IP/1:VP/2:S/f:>

<NP/f,will come back to haunt me,IP/1:VP/2:S/f:>

<VP/0,will come back to haunt me,IP/f:VP/2:S/f:>

<VP/1,come back to haunt me,IP/f:VP/2:S/f:>

<VP/1,back to haunt me,IP/f:VP/2:S/f:>

<VP/2,to haunt me,IP/f:VP/2:S/f:>

<SC/0,to haunt me,VP/f:IP/f:VP/2:S/f:>

<SC/1,haunt me,VP/f:IP/f:VP/2:S/f:>

<VP/0,haunt me,SC/f:VP/f:IP/f:VP/2:S/f:>

<VP/1,me,SC/f:VP/f:IP/f:VP/2:S/f:>

<NP/0,me,VP/2:SC/f:VP/f:IP/f:VP/2:S/f:>

<NP/f,,VP/2:SC/f:VP/f:IP/f:VP/2:S/f:>

<VP/f,,SC/f:VP/f:IP/f:VP/2:S/f:>

<SC/f,,VP/f:IP/f:VP/2:S/f:>

<VP/f,,IP/f:VP/2:S/f:>

<IP/f,,VP/2:S/f:>

<VP/f,,S/f:>

<S/f,,>

<,,>

SUCCESS

回溯剖析中,系统启动VP→V NP IP规则,<IP/0,a little white lie will come back to haunt me,VP/2:S/f:>表示嵌套在子网络VP subnet中的次子网络IP subnet被系统激活,a little white lie 不再被认为是动词tell的直接宾语,而被认为是IP子句的主语成分,这些信息体现在<NP/f,will come back to haunt me,IP/1:VP/2:S/f:>的表示中。NP/f表示名词词组a little white lie已经剖析完毕。IP/1:表示在次子网络IP subnet栈中NP剖析阶段是IP0→IP1。VP/2:表示子网络VP subnet是嵌套子网络IP subnet的上一级栈,而且所处的阶段是VP2→VPf。S/f:表示主网络S net是最高级别的栈,只有栈内所有的终端字符串都得到剖析才能被系统所接受。

通过系统行进错位前后形成的算法矩阵可以清楚地看到解码停顿和回溯的节点变化。请见行进错位的算法矩阵和由此生成的非良构子串表。

.0She.1told.2me.3a.4little .5white.6lie .7will.8come.9back.10to.11haunt .12me.13

表3 例14行进错位的算法矩阵

图12 例14行进错位的非良构子串表

上面的图表显示,诱发行进错位的节点是will节点。在She told me a little white lie的剖析中,系统默认S→NP(Pron) VP已经完成,得到的也是一个良构的子串表。所以,在算法矩阵和子串表中都归约出表示解码终结的S符号。但是剩余子串will come back to haunt me无法进入系统剖析。这说明系统前期解码出现了错位。系统遂回溯到VP→V NP NP和VP→V NP IP选择岔路重新处理。由此,可以形成正确剖析的算法矩阵和良构子串表。

.0She.1told.2me.3a.4little .5white.6lie .7will.8come.9back.10to.11haunt .12me.13

表4 例14花园幽径句的算法矩阵

图13 例14花园幽径效应良构子串表

成功的解码能处理所有的终端字符串。在表4的算法矩阵中,浅灰填充区域包括最高层的剖析符号{S}、次高层的{VP}和次次高层的{IP}。这与图13的良构子串表中的最高三层的标识符号S→NP(Pron) VP、VP→V NP(Pron)IP和IP→NP VP是一致的。这说明算法矩阵中的所有字符串都得到了归约,系统在剖析完所有的字符串后得到解码终结的符号S,解码成功。在子串表中,与算法矩阵相对的规则得到标识,最后形成了跨越所有终端符号的弧线S,即表示系统解码成功后形成的子串表是封闭的,也就是良构的了。这种行进错位前后的程序算法不同也可以通过CYK算法得到清晰展现。我们把算法流程进行了剖析,由于篇幅所限,此处不赘言,具体请参见附录三。

例13和例14花园幽径句产生的原因是不同的。例13的认知回溯源于动词float的变化。首先该动词的主动态过去式和被动态过去分词形式同形,遵循金博尔的尽早闭合原则,解码者在sank出现前,已经匹配到了完整的句法生成式,认知解码系统完成处理,信息存储器瞬时关闭并释放出空间。但当sank出现时,系统的可逆程序启动,原来的匹配模式崩盘,系统根据既有信息和加入信息重新进行排列组合,将float由开始的主动态过去式重新解读为被动态的过去分词形式,句法层级也下推至下一层级,即主动词不再由float而是由sank承担。例13在补足省略的成分后可形成正常句例16,其结构分析类似例15。

例15:The logs are trimmed and then floated down the river.本例源自 http://www.ldoceonline.com/dictionary/float_1。原木锯伐成段后顺流而下。

例16:The raft that was floated down the river sank.顺流而下的筏沉没了。

花园幽径句例14的形成原因在于动词told的辖域变化。解码时,具有统领双宾语功能的动词told 通过附着宾语me实现了间接宾语的填位。当a little white lie进入认知处理器的存贮范围时,缺少直接宾语进行补充的认知系统遵循尽早闭合原则,将a little white lie缺省认定为直接宾语,初期解码完成。但是,助动词will具有提示后续动词即将出现的功能,随着它的加入,已经闭合的认知环路重新打开。这样,因缺少成分进行附着而无法完成句法生成式解读的系统处于动态接纳后续信息的状态。随后,以a little white lie为主语展开的宾语从句被视为直接宾语,系统才完成了整句的认知解读。动词told辖域发生了延展,即由一个短语充当直接宾语转变到由一个从句充当直接宾语。这种变化导致了花园幽径现象的出现。短语需要的认知负载小于从句,所以遵循尽早闭合原则,系统首先接纳的是认知负荷较小的短语。这为后期系统随着新信息的加入而出现的认知模式的破旧立新留下了铺垫。这种花园幽径句的回避办法就是在宾语从句前补足一个提示新兴节点的连词that(尽管可以省略)。依此提示词的存在,系统可以直接将told的辖域扩大到从句,认知环路不会提早闭合。请见例17。

例17:She told me that a little white lie will come back to haunt me.她告诉我说小小的善意谎言会重新困扰我。

金博尔的第六个原则是固定结构原则。所谓的固定结构(fixed structure)就是认知解码过程中所秉承的既有模式,如果从计算科学角度来说就是系统缺省默认的状态。这些固定模式的形成涉及神经语言学、认知语言学、社会语言学等多个领域。

例18:Until the police arrest the drug dealers control the street.样例源自 http://www.fun-with-words.com/ambiguous_garden_path.html。毒贩控制着街区直到被警察逮捕。

例19:Until the police make the arrest,the drug dealers control the street.毒贩控制着街区直到警察采取逮捕行动。

例20:The professors instructed about the exam were confused.被指导考试的教授们感到困惑。(Milne,1982:351)

例21:The waiter served in a new restaurant was happy.在新餐厅里享受到服务的侍者很高兴。

例22:Until the police arrest the baby control the street.婴儿控制着街区直到被警察逮捕。

警察逮捕贩毒分子是一个通用的认知模式,所以,根据这个固定模式,当名词和动词兼形的arrest出现,认知系统就把the drug dealers默认为arrest的宾语,形成了符合认知构式的环路。当后续的control the street 要求匹配主语时,系统回溯并重新将arrest解码为名词,the drug dealers也由既定的宾语成分调整为主语,花园幽径现象出现。如果通过补足认知解码所需的解释性信息,这种现象也能够避免。

花园幽径句整体上是符合认知固定结构的,回溯只是来自于内部句法结构的调整。如果认知模式整体上没有遵循传统认知的固定结构,语言运用时就会产生认知延迟、误解甚至造成解码中断。

教授是高等教育中具有最高职称的群体,通常他们是指导学生学习的人,所以当被指导的对象变成教授时,解码者容易产生认知延迟。

服务生由常规的服务者变成了顾客,如果没有特定语境支持容易形成解码者的误解。虽然具有句法生成式的完整性,但该句对认知固定结构的整体违背造成了解码中断。

花园幽径句的程序算法剖析可深化理解。在讨论固定结构原则对行进错位的影响时,我们发现回溯前后程序算法的不同剖析可以深化对花园幽径模式的理解。

Until the police arrest the drug dealers control the street.

G={Vn,Vt,S,P}

Vn={S,NP,VP,N,Det,PP,Prep,CP,Conj,IP,V}

Vt={until,the,police,arrest,drug,dealers,control,street}

S=S

P:

a.S→PP IP

b.NP→N N

c.NP→Det N

d.NP→Det NP

e.PP→Prep NP

f.CP→Conj IP

g.IP→NP VP

h.VP→V NP

i.Det→{the}

j.Prep→{until}

k.Conj→{until}

l.N→{police,arrest,drug,dealers,street}

m.V→{arrest,control}

左角分析有利于解释固定结构的解码原因。剖析中对规则Conj→{until}和Prep→{until}的不同选择会导致解码的不同。由于until在句首出现时通常是连词结构,其引导的结构是高概率的。所以,系统默认Conj→{until}具有优先级。由此展开的解码程序导致行进错位的诱发。

Until the police arrest the drug dealers control the street Rules

Conj the police arrest the drug dealers control the street k

Conj Det police arrest the drug dealers control the street i

Conj Det N arrest the drug dealers control the street l

Conj NP arrest the drug dealers control the street c

Conj NP V the drug dealers control the street m

Conj NP V Det drug dealers control the street i

Conj NP V Det N dealers control the street l

Conj NP V Det NN control the street l

Conj NP V Det NP control the street b

Conj NP V NP control the street d

Conj NP VP control the street h

Conj IP control the street g

CP control the street f

BREAKDOWN AND BACKTRACKING

系统回溯后可启动次优选结构。规则Prep→{until}在系统回溯后得到激活,由此完成系统对该花园幽径句的解读。

Until the police arrest the drug dealers control the street

Prep the police arrest the drug dealers control the street j

Prep Det police arrest the drug dealers control the street i

Prep Det N arrest the drug dealers control the street l

Prep Det N N the drug dealers control the street l

Prep Det NP the drug dealers control the street b

Prep NP the drug dealers control the street d

PP the drug dealers control the street e

PP Det drug dealers control the street i

PP Det N dealers control the street l

PP Det N N control the street l

PP Det NP control the street b

PP NP control the street d

PP NP V the street m

PP NP V Det street i

PP NP V Det N l

PP NP V NP c

PP NP VP h

S a

SUCCESS

系统对例句成功剖析源于对until的正确解读。由此构建的树形图可把解码的程序层次性展现出来,具体请看下图:

图14 例18的树形图

树形图中的结构剖析表明,Until the police arrest结构是介词词组PP。规则PP→Prep NP、NP→Det NP、NP→N N、Prep→{until}、Det→{the}、N→{police,arrest}得到激活。由此形成的整个句子的递归转移网络如下:

图15 例18的递归转移网络

递归转移网络由主网络S net,子网络NP subnet、VP subnet和PP subnet组成。在子网络PP subnet中对arrest的选择分歧产生了行进错位。如果V→{arrest} 被激活,形成的就是<VP/0,arrest the drug dealers control the street,PP/f:S/1:>,即系统默认在S/1栈和PP/f栈下面的嵌套子网络VP subnet得到启用,VP/0表示开始对动词arrest进行剖析。由此形成的程序算法如下:

Until the police arrest the drug dealers control the street

<S/0,Until the police arrest the drug dealers control the street,>

<PP/0,Until the police arrest the drug dealers control the street,S/1:>

<PP/1,the police arrest the drug dealers control the street,S/1:>

<NP/0,the police arrest the drug dealers control the street,PP/f:S/1:>

<NP/1,police arrest the drug dealers control the street,PP/f:S/1:>

<NP/2,arrest the drug dealers control the street,PP/f:S/1:>

<NP/f,arrest the drug dealers control the street,PP/f:S/1:>

<VP/0,arrest the drug dealers control the street,PP/f:S/1:>

<VP/1,the drug dealers control the street,PP/f:S/1:>

<NP/0,the drug dealers control the street,VP/f:PP/f:S/1:>

<NP/1,drug dealers control the street,VP/f:PP/f:S/1:>

<NP/2,dealers control the street,VP/f:PP/f:S/1:>

<NP/f,control the street,VP/f:PP/f:S/1:>

<VP/f,control the street,PP/f:S/1:>

<PP/f,control the street,S/1:>

<NP/0,control the street,S/2:>

?

BREAKDOWN AND BACKTRACKING

如上所示,灰色填充部分就是系统出现选择岔口的部分,即在规则V→{arrest}和N→{arrest}间进行选择。系统在优选规则V→{arrest}进入解码程序得到最后的<NP/0,control the street,S/2:>,即剩余字符串control the street没有相关的规则支撑继续进行剖析。解码失败,系统回溯到岔路,重新选择并尝试N→{arrest}进行剖析。由于在岔路前的剖析没有歧义出现,系统保留这些剖析结果,从岔路后剖析开始改变,直至全部解码完毕。具体程序算法如下。

<NP/2,arrest the drug dealers control the street,PP/f:S/1:>

<NP/f,the drug dealers control the street,PP/f:S/1:>

<PP/f,the drug dealers control the street,S/1:>

<NP/0,the drug dealers control the street,S/2:>

<NP/1,drug dealers control the street,S/2:>

<NP/2,dealers control the street,S/2:>

<NP/f,control the street,S/2:>

<VP/0,control the street,S/f:>

<VP/1,the street,S/f:>

<NP/0,the street,VP/f:S/f:>

<NP/1,street,VP/f:S/f:>

<NP/2,,VP/f:S/f:>

<NP/f,,VP/f:S/f:>

<VP/f,,S/f:>

<S/f,,>

<,,>

SUCCESS

行进错位前的程序算法(即V→{arrest}的激活过程)可以在矩阵和子串表中得到体现。

.0Until.1the.2police.3arrest.4the.5drug.6dealers.7control.8the.9street.10

表5 例18行进错位的算法矩阵

上表的算法矩阵是不完整矩阵。由于系统在后续字符串control the street加入后不能在算法矩阵的最终位置(0,10)中归约出终极符号S。这说明该矩阵是不完整矩阵。动词control 出现前,until被系统接受为连词,规则CP→Conj IP被激活,Until the police arrest the drug dealers形成了一个完整的子句。但是动词control 出现后,系统已经完整的子句矩阵被瓦解,原来的解码模式被推翻。这种不完整算法矩阵形成了非良构子串表。

图16 例18行进错位的非良构子串表

上图的非良构子串表展现了诱发行进错位前形成的解码特点。字符串control the street出现前,系统按照规则CP→Conj IP,IP→NP VP,VP→V NP,NP→Det NP,NP→N N构建了闭合的子串表,即在没有字符串control the street参与解码的情况下,系统已经形成了良构的子串表,得到了表示子句解码成功的标识CP。随着动词control及其所在结构control the street的出现,系统无法找寻到与之匹配的规则集。因此,不能剖析余下的字符串,形成的子串表也不能覆盖所有终端符号,因而是非良构的。

系统诱发行进错位并回溯后,可形成完整的算法矩阵和良构子串表。

表6 例18花园幽径句的算法矩阵

上表的算法矩阵是解码成功的完整矩阵。在终极位置(0,10)中,系统归约出了表示解码终结的符号S,激活的规则是S→PP IP。系统由until的连词义项转变为介词义项,启用规则PP→Prep NP。arrest的动词义项转变为名词义项,启用规则NP→N N。这种完整矩阵对应良构的子串表。

图17 例18花园幽径效应良构子串表

上图的良构子串表是涵括所有终端符号的闭合图形。在PP结构中,规则Prep→{until}和N→{arrest}都得到激活,形成了[Until the police arrest]PP模式。余下的字符串 the drug dealers control the street按照规则IP→NP VP形成了IP模式。S→PP IP规则最后被启用,解码成功。

金博尔的第七个原则是即时处理原则。根据其特点也可以称之为短时记忆存贮空间的及时释放原则。用于语言解码的认知记忆主要分成三个阶段:瞬时记忆、短时记忆和长时记忆。瞬时记忆也叫感觉记忆,其存储器记录的多是语言符号对感官(如眼睛)直接刺激后形成的映像,其存贮量的大小取决于感观的生理范围,如一次映入眼帘的语言符号的多少等。短时记忆也称工作记忆。与短暂存贮的瞬时记忆所不同,短时记忆除了保留存贮功能外,对复杂信息具有初步加工的能力,句法生成式产生的过程主要出现在短时记忆阶段。经过选择并得到相对充分加工的信息在符合句法、语义、语用等规范后可进入长时记忆。由于生理功能所限,短时记忆的存贮量相对长时记忆是有限的,而且短时记忆中神经元感应加工是动态和混沌的。加工过的信息只是相对正确,所以这些信息在进入长时记忆后也可能返回重新加工。这种移送和重新提取过程是可逆的。但是已经进入长时记忆的信息如果重新返回短时记忆进行再加工(即回溯)的话,认知负载要比只在短时记忆中加工所付出的代价大的多。花园幽径现象之所以耗费了更多的认知资源,其根本原因在于这个移送和重新提取的过程是二次甚至是多次加工的结果。长时记忆中信息被迫返回时,系统付出的认知代价是可观的。

长时记忆包括解码者认知中相对稳定的信息,它们是经过了瞬时记忆感知和短时记忆粗加工过了的。从存储容量来说,长时记忆是最大的,其可用于记忆的认知单元的存贮能力超过了我们的想象,这和有限存储的瞬时记忆和短时记忆形成了巨大反差。短时记忆作为一个能力有限的存贮加工单元,信息处理的及时与否决定了短时记忆的效率。它的主要功能在于摒弃多余信息,将加工过的信息及时转送至具有更大存贮空间的长时记忆中,而且尽快释放更多动态认知因子。这种特性为基于短时记忆的自然语言处理及时性研究奠定了基础,并使具有回溯性特点的花园幽径现象在短时记忆阶段出现成为可能。

例23:The girl told the story cried.听故事的小姑娘哭了。(Katamba:2005:263)

例24:I know the words to that song about the queen don’t rhyme.我知道那首关于女王的歌词并不押韵。(Katamba:2005:263)

上面两例具有认知回溯的特点。认知系统处理例23时,在cried出现前,短时记忆的处理已经具有了既定模式(小姑娘讲故事)。为减轻认知负荷,短时记忆及时处理了前面部分并移送至存贮能量更大的长时记忆中。可是当cried作为补充信息通过瞬时记忆进入短时记忆中时,语法规范要求系统重新解读该句。于是短时记忆和长时记忆间的可逆通道开启,已经送至长时记忆中保存的既定信息被短时记忆重新提取,同时系统将told the story下推至比the girl低的句法层级(语义上小姑娘由施事变成受事)进行解读,最后将解码成功的信息再次移送至长时记忆中存贮。

例24的回溯性产生于动词know的宾语变化时。当短时记忆处理完I know the words to that song about the queen(我知道那些有关女王的歌词)后,系统将解读后的信息及时移送至长时记忆中进行存贮以释放出更多的动态认知因子。但是后续的don’t rhyme要求系统启动短时记忆和长时记忆的可逆程序,将原来已经送出的解码模式取回并更改为从句充当宾语的认知模式,然后重新送回长时记忆进行存贮。这个重新取回原来认知模式并发送新的更改认知模式的过程就是花园幽径的回溯现象。

金博尔的七个原则是相互渗透、相互联系、协同运转的,其讨论主要涉及语法和认知范畴。核心论点阐述了短时记忆对自然语言处理具有的不可低估的影响。他对自己提出的七个原则的功能概括如下:

These principles account for the high acceptability of right branching structures,outline the role of grammatical function words in sentence perception,describe what seems to be a fixed limit on short-term memory in linguistic processing,and hypothesize the structure of the internal syntactic processing devices.The operation of various classes of transformations with regard to preparing deep structures for input to parsing procedures such as those outlined in the paper is discussed.即这些原则解释了右分支结构的高接受度,概述了语法功能词在句子感知中的角色,描述了语言处理的短时记忆中什么因素起到了限制性作用,对句法分析内部策略的结构进行了推断,并如前文所述讨论了从深层结构输入到分析程序的多层级转换操作。(金博尔,1973)

如果从功能和结构两个分水岭分析金博尔的原则,我们认为,侧重认知功能的原则有自上而下原则、双句饱和原则、尽早闭合原则和即时处理原则,侧重句法结构的原则有右侧连接原则、新兴节点原则和固定结构原则。尽管金博尔的原则并不是万能的,甚至有的阐释在今天看来还可能是错误的,但他从表层结构句法分析层面解读了句子理解系统是如何展开的,并关注了语言理解和计算的关系,为我们利用计算语言学方法(如NS流程图、线图剖析法、递归转移网络等)解读花园幽径句提供了理论条件。

1978年,美国康涅狄格大学的弗雷泽(Frazier)和福多尔(Fodor)在《认知》第6卷发表了《灌肠机:一种新的双阶段句法剖析模型》(The sausage machine:A new two-stage parsing model)。他们认为人类的句子解析装置(human sentence parsing device)可将短语结构分配到词串的过程分成两个阶段。

第一阶段称之为“初级短语包(The preliminary phrase packager)”,即灌肠机(The sausage machine)。解析器将词汇和短语节点(lexical and phrasal nodes)分配给规模大约为六个词的子串(substrings of roughly six words),这些子串连接到一起形成一定的结构。超过这个长度,解析器不能有效处理。其中的子串可以是词也可以是结合紧密的短语。

第二阶段称之为“句子结构监视器(The sentence structure supervisor)”。解析器用更高节点(higher nodes)把这些短语包(phrasal packages)进行连接并形成一个完整的短语标记(a complete phrase marker)。连接不破坏初级短语包中的节点结构。这种解析器模型可以与卡普兰(Kaplan,1972)的扩充转移网络(Augmented Transition Networks)和金博尔(1973)的双阶段模型(two-stage models)进行比较。与强调句子数量多少影响解析效能的其他模型所不同,灌肠机模型更侧重词语数量对解析效能的影响。

他们假设从第一阶段分流到第二阶段的语言单位是由长度而不是句法类型来决定的。从这能看出在中心嵌入句和符合金博尔右侧连接原则分析的句子中,语言成分长度对感知复杂度是有影响的。这样,在没有特别剖析策略的支持下(without appeal to any ad hoc parsing strategies),也能够解释为什么具有对可获信息进行智能处理能力的解析器也总犯一些“短视”的错误(‘shortsighted’ errors)。

例25:Who could the little child have forced us to sing those stupid French songs for,last Christmas?http://www.gerardkempen.nl/Downloadables_files/Kempen-Ch8-Dijkstra-DeSmedt1996.pdf.去年圣诞节,小孩儿让我们为谁唱了那些无聊的法语歌?

例26:Who could have forced us to sing those stupid French songs last Christmas?去年圣诞节,谁让我们唱了那些无聊的法语歌?

例27:Who could the little child have forced to sing those stupid French songs last Christmas?去年圣诞节,小孩儿让谁唱了那些无聊的法语歌?

例28:For whom could the little child have forced us to sing those stupid French songs last Christmas? 去年圣诞节,小孩儿让我们为谁唱了那些无聊的法语歌?

在例25解析中,解码者能感受到极大的困难,原因在于短时记忆由于受到解析词语数量的影响,短时间内很难完成对本句的解码。该句中共有三个可供who填空的位置(slot),分别是主语、间接宾语和介词引导的状语成分。首先解码者发现主语位置被the little child占据,遂后推至第二个位置,而后又发现间接宾语位置被us填满,最后只能在介词引导的状语成分位置找到Who的位置,可是短时记忆解码跨度超过了灌肠机模型所预定的六词(短语)范围,给解码带来了较大障碍。在例28中,前置介词for的存在提示了whom的位置,因此解码范围符合灌肠机模型的辖域,解码比较顺畅。

例29:Someone shot the brother of the actress who was on the balcony.有人朝看台上女演员的兄弟射击。

Kempen(1996)认为根据右侧连接原则,英语使用者通常愿意接受who was on the balcony对actress而不是对brother的附着(翻译为“有人朝看台上的女演员兄弟射击”),尽管有的语言正好相反(如西班牙语)。这种后续节点位置尽可能低的处理方式也源于灌肠机模型中解码词语数量影响解码结果的推断。

灌肠机模型除了受到金博尔右侧连接原则的影响外,还受到最小附着原则(The principle of minimal attachment)的影响。该原则强调解码过程中的省力原则,即尽可能采用较少的句法节点。

例30:John read the letter to Mary.约翰为玛丽读信。

例31:John read the note,the memo and the letter to Mary.约翰读了便条、便笺和给玛丽的信。

解码是在灌肠机模型的第一阶段的短时记忆中完成的,适合最小附着原则。在例30中,to Mary 是修饰动词read的,这与例31解码不同。例31超出了灌肠机模型的六词(短语)范围,所以,第一阶段解读的只是John read the note,the memo,并把它们视为暂时的独立整体后分流到第二阶段。剩余部分的the letter to Mary随后进入该整体,解析器在不影响第一阶段模型的情况下,将后续部分进行解读。因此,例31中to Mary修饰的不是动词read而是名词the letter。http://www.gerardkempen.nl/Downloadables_files/Kempen-Ch8-Dijkstra-DeSmedt1996.pdf.

1982年,弗雷泽和雷纳(Rayner)在《认知心理学》(Cognitive Psychology)杂志发表论文《句子理解的出错与纠错:结构歧义句分析中的眼动研究》(Making and Correcting Errors during Sentence ComprehensionEye Moments in the Analysis of Structurally Ambiguous Sentences),他们认为花园幽径句是歧义句,而且是句法结构上带来的认知偏误。这种偏误可以瞬时产生也会在特定触发点出现后进行纠正。所有这些黑箱中的认知解码都可以通过眼动试验进行直观分析,即通过眼睛在花园幽径句上停留的时间比例不同的对照来验证这种特殊语言现象的存在。

1985年,克雷恩(Crain)联手斯蒂德曼(Steedman)推出《勿入花园幽径路:语境在心理句法处理器中的使用》(On Not Being Led Up the Garden Paththe Use of Context by the Psychological Syntax Processor)。文中认为花园幽径现象涉及基于心理学的句法分析,这种条件性决定了分析的选择性,符合语境支撑条件的可以得到解读,否则缺失语境将给解码带来困难。

1987年,哈佛博士生普里切特(Pritchett)以花园幽径现象研究为题目展开讨论,并将其博士论文整理后以《花园幽径现象和语言处理中的语法基础》(Garden Path Phenomena and the Grammatical Basis of Language Processing)发表于《语言》(Language),文中着重分析了花园幽径句的语法特点,并认为:

“Grammatical theory and parsing are related.Evidence from processing breakdown was examined and an attempt was made to specify the conditions under which ambiguity in the input string resulted in grammatical but unprocessable sentences.Globally ambiguous sentences were contrasted with sentences characterized as strictly locally ambiguous.”语法理论和句法剖析是相关的。行进式错位的证据可得到论证,并尝试详细讨论能够在输入字符串中产生符合语法却无法解读的歧义的条件。完全歧义句与严格意义上被称为局部歧义的句子可进行对照研究。

普里切特在文中提到的花园幽径现象是局部歧义的观点具有局限性。他的观点和其他国内外学者将这种现象看成是“局部歧义”或者是“歧义的一种特殊情况”的观点有相似之处。

我们在本书中所持观点与普里切特不同:鉴于“单车道单向”通行的花园幽径现象与“多车道单向”通行的歧义具有区别性特征,我们认为这种现象不应是歧义的附属而应该是与歧义相对的一种现象。为了凸显花园幽径现象所蕴含的先期通畅、中期顿误、后期折返特性,我们借用骨科术语“错位”将processing breakdown 翻译为“行进式错位”,旨在关注花园幽径现象折返时所付出的巨大认知代价。

1993年,温伯格(Weinberg)在论文《句子处理理论中的参数:最小支撑理论走向东方》(Parameters in the Theory of Sentence ProcessingMinimal Commitment Theory Goes East)中提出“最小支撑理论(Minimal Commitment theory)”。该理论是确定性分析器的分支(a subspecies of deterministic parsers),可用于讨论直接支配和优先关系尚不明确时的语言状态(representations where immediate dominance and precedence relations are unspecified)。温伯格认为跨语言解读花园幽径现象是可能的,但基于英语和日语语料的花园幽径句的解码需要一定的参数做背景。

2001年,克里斯琴森(Christianson)等学者发表《花园幽径延迟性的主旨角色分配研究》(Thematic Roles Assigned along the Garden Path Linger),关注了花园幽径现象的延迟性,并认为这种延迟性是主旨角色参与其中的特殊现象。语言的理解是恰当的表达(an appropriate interpretation)而不是一种语言的理想化,更不是理想化结构(idealized structure)。克里斯琴森的观点表明了语言在实践中的非理想化。

2003年,贝利(Bailey)和费雷拉(Ferreira)在心理语言学期刊《记忆与语言杂志》(Journal of Memory and Language)中推出文章《非连贯性对花园幽径句剖析的影响研究》(Disfluencies Affect the Parsing of Garden-Path Sentences)。两位作者着重分析了花园幽径句在生成过程中的触发性因素,并利用口语“嗯(Uh)”讨论了非连贯性口语表达在某些特定的句法变化中产生的语义流中途返回的花园幽径现象。

2004年,博恩克赛尔(Bornkessel)等学者在论文《花园幽径效力的多维功用:格标记中游离短语结构研究》(Multi-Dimensional Contributions to Garden Path StrengthDissociating Phrase Structure from Case Marking)中借助德语主宾歧义并利用格语法讨论了导致花园幽径现象的可能因素。

同年,洛克(Roark)发表《鲁棒的花园幽径剖析》(Robust Garden Path Parsing),文中侧重对纸质新闻素材的整理和电话语音的实证研究,并认为由此引发的花园幽径现象具有条件性。

2005年,刘(Lau)和费雷拉(Ferreira)分析了非流利性表达对花园幽径句延迟性的影响,其学术思想论文《花园幽径句理解中非流利性材料所产生的延迟效应》(Lingering Effects of Disfluent Material on Comprehension of Garden Path Sentences)发表。

2006年,冈珀(Gompel)等在《花园幽径句中不恰当分析的激活:源于结构中的证据》(The Activation of Inappropriate Analyses in Garden-Path SentencesEvidence from Structural Priming)中提出:花园幽径句是句法结构顺序变化导致的,花园幽径现象与结构活性具有关联性。

2008年,《记忆与语言杂志》(Journal of Memory and Language)刊发了卡尔匹克(Karpicke)等提交的文章《错误记忆不足为奇:联想记忆错觉的主观感受》(False Memories Are Not SurprisingThe Subjective Experience of an Associative Memory Illusion),他们认为短时记忆中的记忆偏误对花园幽径现象的出现具有调节性。

同年,弗雷泽等发表《极性结构:对极性形容词最小和最大标准的解读》(Scale StructureProcessing Minimum Standard and Maximum Standard Scalar Adjectives),提出了极性形容词(scalar adjective)具有的极大和极小性决定了结构描写的两极性,这成为结构性花园幽径句产生的原因之一。

2008年,《实验社会心理学期刊》刊载了杰弗里斯(Jefferis)和法齐奥(Fazio)的文章《无障碍输入:无障碍建构信息对行为的引导》(Accessibility as InputThe Use of Construct Accessibility as Information to Guide Behavior),文中以中国上海某校的大学生为心理实验的测试来源,对花园幽径现象引发的瞬时性认知误解进行了解读。

2009年,帕特森(Patson)等在《花园幽径句中的延迟误解:源自释义任务的证据》(Lingering Misinterpretations in Garden-Path SentencesEvidence from a Paraphrasing Task)中通过实验证明了基于释义任务的花园幽径句是延缓性误解的产物,对其解码具有延迟性。

2010年,克里斯坦森(Christensen)在《大脑与认知》(Brain and Cognition)发表论文《句法的重构和重析,语义死角与前额叶皮层》(Syntactic reconstruction and reanalysis,semantic dead ends,and prefrontal cortex)。认为左额下回(the left inferior frontal gyrus)与句法处理相关联。实验证明:对省略的重构和对花园幽径现象的重析都要求大脑进行额外的句法处理,相应地增加了相关区域的活性并在各区域间产生了交互效应(an interaction effect)。

国外的诸多研究大多是从发挥母语优势的角度进行花园幽径现象阐释的,或者说是从语言本体进行切入解读的,这与研究者大多是母语使用者是分不开的。与这一研究趋势相反,国内研究者基本属于非母语的英语研究者,因此不具备语言使用的敏感性语感。国内研究者侧重引荐国外研究,同时力图实现研究的本土化,并通过与汉语对比进行花园幽径现象研究。