自然语言交流的计算机模型
上QQ阅读APP看书,第一时间看更新

3.4  LA语法的时间线性算法

接下来,我们看一下输入/输出等价原则(见1.5.5)。该原则适用于对数据结构进行操作的算法。从语言的角度看,它对于人工智能主体的意义尤其明显。它要求人工智能主体(i)和自然人一样接受输入、生成输出,(ii)以和自然人一样的方式解构输入和输出,(iii)再以同样的方式在输入和输出过程中对解构得到的各个部分进行排序。

3.4.1  将输入/输出等价原则应用于语言

1. 语言层的输入和输出都是自然语言符号,如短语、句子或语篇。

2. 输入和输出过程中对自然语言符号进行解构得到的是词形。

3. 输入和输出过程中按照时间线性顺序对词形进行排序。

LA语法(LAG)的算法遵循时间线性顺序,以一个词形序列,如abcde...,为输入,首先把已经分析过的部分,称作句首(sentence start),把它和下一个词(next word)组合起来,得到一个新的句首,也就是说,“a”和“b”组合为“(ab)”,“(ab)”再和“c”组合为“((ab)c)”,“((ab)c)”接着和“d”组合为“(((ab)c)d)”,以此类推。这种结合方法被称作左结合(left-associative)的方法——LAG由此得名。

下面以句子“Julia knows John”为例,解释数据库语义学在听者模式下的LA语法:

3.4.2  时间线性推导(可接续性原则)

以顺次渐进法查字典(incremental lexical lookup),结果得到一组孤立的命题因子,分别替换输入的语表“Julia”“knows”和“John”。此时,这些命题因子的大多数属性的值为空。再顺次进行句法-语义分析,各个命题因子的相关属性通过复制操作获得新值(用箭头表示),由此在命题因子之间建立起联系。最后,得到一组相互独立但命题编号(这里是[prn:22])相同的命题因子。这些命题因子可以自动存入词库。

按照时间线性顺序,把没有经过分析的语表作为输入内容,通过查字典和句法-语义分析来重新建构已输入内容的函词论元关系,这种分析方法和人作为听者对听到的内容进行分析的方法,从输入的角度看是等价的。这个求导过程所遵循的LA语法规则称作LA-hear。下面的例子说明如何应用LA语法规则来完成(句法-语义)组合的第一步(用斜体字说明)。完整的LA-hear语法定义见3.6.2,11.4.1,13.2.4和15.6.2。

3.4.3  LA-hear规则的应用

规则层(rule level)包含(i)规则名、(ii)句首格式、(iii)下一词的格式、(iv)一组操作和(v)一个规则包。规则格式在命题因子层(proplet level)根据3.2.3所描述的条件注42和命题因子进行匹配。匹配过程中,规则层的变量纵向注43绑定命题因子层的相应的属性值。这是在命题因子层实现规则层操作的前提。根据规则进行操作所得到的结果输出如下:

3.4.4  应用LA-hear规则的结果

接下来,按照时间线性顺序,当前的输出结果成为新的句首,查字典之后把“John”确定为进行组合的下一词(见3.4.2,第2行)。

短语结构语法(PSG)的分析过程不是这样的,它不遵循时间线性顺序,如下例所示:

3.4.5  非时间线性求导(可替代性原则)

短语结构语法的分析过程从起始标志S开始,然后用NP和VP来替换S,求导出短语结构树,直到到达终端结点“Julia”“knows”和“John”。接下来,查字典之后,终端结点被替换为特征结构。最后,对词的特征结构进行合一(unification)操作(用虚箭头表示),得到一个大的递归特征结构。合一操作的顺序仿照PS树的求导过程。注44短语结构语法的求导过程不是从句首开始,一个词接一个词地分析,所以违背了输入/输出等价原则(见1.5.4)。

短语结构语法是一种以符号为导向的方法,其规则和求导的陈述性规范说明并不包含与认知主体识别和行动之间的任何联系,因此违背了界面等价原则。所有短语结构语法分析所得到的树形图都是从相同的起始标志S开始,再经过各种替换操作所产生的结果。注45合一操作所得到的特征结构直接反映PS树形图,因此必须递归嵌套下一级特征结构。也正是因为这个原因,短语结构语法只能分析孤立的句子。

LAG则不同。LAG的每一条规则都有一个外部数据界面,包含在匹配输入命题因子的格式(见3.4.3)当中。而且,用一组独立的命题因子来表现句子的分析过程和结果是把命题因子存入词库,以及从词库里提取命题因子的前提。反过来,在听者模式和说者模式下,存储和提取命题因子是按照线性顺序进行正常操作的前提。命题因子不但可以表现命题内部的函词论元关系、并列关系和共指关系,还能表现任意长度的语篇当中的不同命题之间的这些关系。