自然语言交流的计算机模型
上QQ阅读APP看书,第一时间看更新

1.6  语表组合性和时间线性

界面等价和输入/输出等价的一般原则要求仔细分析和重新建构(i)自然主体的识别和行动部件,以及(ii)传输通过这些部件的数据。数据中很重要的一种就是在说者模式下被生成、在听者模式下被理解的自然语言的表达方式。

从外部看,这些数据是某一媒介的客体,表现为声音、手写字或者打印字,或者手语,可以记录在胶片、磁带或者光盘上,可以通过自然科学的方法来测量和描述。由于其具体性,这些客体构成语言学分析不能加也不能减的实验基础。这一基本的方法论原则就是语表组合性(SCG’84):

1.6.1  语表组合性

把具体的词形看作语法组合成分,在此基础上进行的分析就是语表组合分析。语表组合分析从词条的句法范畴和字面意义来系统地分析复杂表达方式的句法和语义特征。

不符合语表组合的例子最能解释语表组合概念,如下面的语法分析所示:

1.6.2  不符合语表组合的分析

为了使名词短语every girl和water有相同的结构,上图分析假定了零元素ø。但是这种假设的“语言学归纳”是非法的,因为water的假定定冠词在实际语表中并不存在。

不过,1.6.2中的这些范畴的用意是很好的,下面我们就来定义这些范畴:

1.6.3  1.6.2中的各个范畴定义如下:

(sn’ np)=限定词带单数名词sn’构成名词短语np。

(sn)=单数名词填充定冠词的价位sn’。

(np’ np’ v)=及物动词带名词短语np构成(np’ v)。

(np)=名词短语填充动词的价位np’。

(np’ v)=不及物动词带名词短语np构成(v)。

(v)=不带空价位的动词句子)。

1.6.2所举例子的生成规则以可接续性为原则,下面我们对其进行定义:

1.6.4  导出1.6.2的可接续性计算规则

(v)→(np)(np’ v)

(np)→(sn’ np)(sn)

(np’ v)→(np’ np’ v)(np)

(sn’ np)→every,ø

(sn)→girl,water

(np’ np’ v)→drank

每一条规则通过箭头右边的范畴来替换箭头左边的范畴(自顶向下推导)。也可以理解为由箭头左边的范畴来替换箭头右边的范畴(自底向上推导)。

如果1.6.2中没有假定的零冠词,那么至少还要定义另外一条规则。但是,根据语表组合原则,仅仅认为有必要或者想要,就假定一个实际不存在的成分,这在方法论上是不可靠的。注21违背语表组合性直接导致数学复杂度和计算难度的提高。

确定了语言学分析的基本元素,即以具体符号来表现的语表及其标准词汇解析,我们现在来看这些基本元素之间的合理的语法关系。一个句子当中词与词之间最基本的关系是他们的时间线性顺序。时间线性顺序指的是像时间那样直线运动并以时间为方向(见3.4)。

时间线性结构是自然语言的最基本特点,任何人说话都只能是一句接着一句,一个词接着一个词。时间线性贯穿说话的整个过程,说话的人也可以在说到一半时决定如何接着说下去。

相应地,听者也不用等到整个句子或者语篇结束的时候才开始理解。他可以在不知道句子如何继续的情况下先理解句子的开头部分。

1.6.2中的例子不但违反了语表组合性原则,也违反了时间线性原则。这个语法分析不是时间线性的,因为every girl和drank没有直接组合起来。相反,可替代性原则要求在分析过程中必须先组合drank和water。

时间线性分析以可接续性原则为基础。下面仍以1.6.2中的句子来举例分析:

1.6.5  符合语表组合性和时间线性的分析

自底向上的推导方法总是先把句子的起始成分和下一个词组合在一起构成新的起始成分,其中遵循的左结合语法的相关规则为:

1.6.6  导出1.6.5的可接续性计算规则

(VAR’ X)(VAR)⇒(X)

(VAR)(VAR’ X)⇒(X)

每条规则包含三个格式,用VAR,VAR’和X来表示。注22

规则的第一个格式(VAR’ X)代表句子起始部分ss,第二个格式(VAR)代表下一个词nw,第三个格式(X)代表得到的新的句子起始成分ss’。变量VAR和VAR’只是一个范畴片段,而X是包含零个或多个元素的范畴片段序列。

可接续性计算规则通过格式和输入词句之间的匹配运算来绑定变量。

1.6.7  可接续性计算规则的应用


匹配过程中,变量VAR’纵向对应sn’,变量X对应np,变量VAR对应sn。计算结果当中,冠词范畴(sn’ np)中的价位sn’被填满(或者删除),生成ss’的范畴(np),输入语表every和girl组合为every girl。

要从语表组合的角度处理一个动词和一个带冠词或者不带冠词的名词宾语之间的组合,如drank+a coke和drank+water,变量VAR和VAR’的值受到的限制注23和二者之间的联系如下所示:

1.6.8  推导1.6.5的时间线性规则的变量定义

如果VAR’是 sn’,那么VAR是sn。(基于同一性的一致性原则

如果VAR’是np’,那么VAR是np、sn或者pn。(基于定义的一致性原则

从1.6.5到1.6.8,我们以形式化的方式初步介绍了时间线性推导过程。NEWCAT’86采用这一方法对221个德语句法结构和114个英语句法结构进行了自动的时间线性分析,源代码用LISP写成。CoL’89又采用这一方法对421个英语的句法语义结构进行了以符号为导向的层次语义分析。