模式的结构
我在此介绍的围绕思维的模式识别理论建立在大脑新皮质中模式识别模块进行的模式识别的基础上。这些模式(以及模块)是按照层级关系进行组织的。接下来,我会讨论这个观点的智力来源,包括我在20世纪80年代和90年代所做的层级模式识别工作,以及与杰夫·霍金斯(Jeff Hawkins)和迪利普·乔治(Dileep George)在21世纪初提出的大脑新皮质模型(见图3-1)。
图3-1 大脑新皮质模式识别模块
每个模式(由大脑新皮质中约为3亿个模式识别器中的某一个进行识别)由3部分组成。
第一部分是输入,包括构成主要模式的低层级模式。不需要对每个低层级模式进行重复描述,因为每个高层级模式都为它们注明了出处。例如,许多关于词语的模式包含字母“A”,但不是每一个模式都要重复描述字母“A”,只要用同一描述即可。我们可将它想象为一个网络指针。存在一个关于字母“A”的网页(即一种模式),包含字母“A”的单词的所有网页都会与“A”页链接。不同的是,大脑新皮质用实际的神经联结,而非网页链接。源自“A”模式识别器的轴突联结到多个树突,一个轴突表示一个使用“A”的单词。另外,还要记住冗余系数:不止存在一个关于“A”的模式识别器。所有这样的“A”模式识别器都能向与“A”合并的模式识别器发送信号。
第二部分是模式的名称。在语言世界里,较高层级模式就像“APPLE”这种简单的单词。尽管我们直接利用大脑新皮质进行理解并处理语言的每个层面,但它包含的大多数模式本身并非语言模式。在大脑新皮质中,一个模式的名称就是每个模式处理器中出现的轴突;轴突激活后,相应的模式也就被识别了。轴突的激活就是模式识别器叫出模式的名称:“嗨,伙计们!我刚刚看到书写体的词语‘APPLE ’了。”
第三部分是较高层级模式的集合,它其实也是模式的一部分。对于字母“A”,就是所有包含“A”的词语,这些也与网页链接一样。处于某一层的每个被识别的模式触发下一层,于是该较高层级模式的某一部分就展现出来了。在大脑新皮质中,这些链接由流入每个皮质模式识别器中神经元的生理树突呈现出来。记住,每个神经元能接受来自多个树突的输入信息,但只会向一个轴突输出。然而,该轴突反过来却可向多个树突输出。
举一些简单的例子。图3-2的简单模式就是形成印刷体字母模式的一小部分。
图3-2 “A”的3个冗余模式(不完全相同)输向包含“A”的较高层级模式
需要注意的是,每一个层级包含一个模式。这样,图形是模式,字母是模式,词语也是模式。每个这类模式都有一组输入信息、识别模式的处理程序(以模块内发生的输入为基础),以及有一次输出(输向相邻的更高层级的模式识别器)。
西南至北部中间连线
东南至北部中间连线
水平线
左恻垂直线
向上凹进
底部水平线
顶部水平线
中部水平线
上部环形区域
以上模式都是相邻更高层级的模式的组成部分,相邻更高层级也就是一种被称为印刷体字母的范畴(不过大脑新皮质中没有这种正式的分类,而实际上并不存在正式的分类)。
“A”:
组成“A”的两种不同模式,以及更高层级上的两种不同模式(“APPLE”和“PEAR”),“A”是其中一部分。
“P”:
此模式是更高的层级模式“P”的组成部分。
“L”:
此模式是更高的层级模式“L”的组成部分。
“E”:
此模式是更高的层级模式“E”的组成部分。
这些字母模式向被称为“词语”的更高层级模式输出(“词语”这个词是人类语言概念下的一种分类,大脑新皮质只将其视为模式)。
“APPLE”:
大脑皮质的不同区域都有同一层级的模式识别器,它们负责处理物体的真实图像(与印刷体不同)。如果你正盯着一个真实的苹果,低层级识别器会察觉到弯曲的边缘和表面颜色等模式,从而使模式识别器激活轴突,实际上就是说:“嗨,伙计们!我刚刚看到一个真实的苹果。”而其他的模式识别器会察觉到声音频率的组合,进而导致听觉皮质中的模式识别器激活轴突:“我刚刚听到了口语词‘APPLE' 。”
别忘了冗余系数——对于每一种形式的“苹果”(书面语、口语、视觉图像),我们拥有的模式识别器不止一个,至少有数百个。冗余不仅能增加成功识别苹果的概率,还能处理现实世界中复杂多样的苹果。对“苹果”这个对象来说,就有许多模式识别器可以处理各种形态的苹果:不同视角、颜色、光影、形状、不同品种。
还要记住,上述层级关系是指概念的层级关系,这些识别器并非真的叠加在彼此之上。由于大脑新皮质的结构很薄,实际上仅有一个模式识别器的高度而已。模式识别器之间的联结关系创造了概念层级。
思维模式识别理论的一个重要特征是,“识别”是如何在每个模式识别模块内完成的。模块中存储的是每个输入树突的分量,它表明了输入对于识别的重要程度。模式识别器为激活设立了一个阈值(表明该模式识别器已成功识别它所负责的模式)。不是每个输入模式都要在模式识别器激活时出现。即使存在输入缺失,只要不太重要,识别器仍会激活,但假如很重要的输入缺失的话,它就不大可能被激活了。被激活时,识别器实际上是在说:“我所负责的模式可能出现了。”
模式识别模块的成功识别绝不只是计算激活的输入信号(即使是对重要参数加权的计算)。每个输入的数值也会产生影响。对于每个输入,有一个参数表示预计的数值大小,另一个参数表示数值的变化程度。要弄清楚它的运作机制,可以假设我们有一个负责识别口语词“steep”的模式识别器。该口语词有4个音:[s] [t] [E] [p]。[t]音位就是“舌齿辅音”,是当空气切断上齿的接触时,舌头发出的声音。慢慢地将[t]音位清晰地发出来基本上是不可能的。[p]音位是“爆破辅音”或者“闭塞音”,它是由于声带突然阻塞([p]就是被双唇阻塞),空气无法通过而产生的声音,它发音也很快。元音[E] 是由声带和张开的嘴共振产生的,因为它比 [t]和[p]那样的辅音持续的时间更长些,所以就被当成“长元音”,但它的持续时间也是多变的。[s]音位是我们所知的“嘶声辅音”,是由空气通过紧闭的上下齿边缘所发出的声音。一般来说,它的持续时间比 [E]这样的长元音要短,但也多变(换言之,你可以将[s]发得很快,也可将其拖长)。
在语音识别工作中,我们发现:为了识别语音模式,就需要编码这类信息。例如,词语“step”和“steep”非常相似。尽管“step”中的[e]音位与“steep”中的[E]音位元音上有些区别(它们有着不同的共振频率),但根据这些经常混淆的元音来区别这两个词并不可靠。更为可靠的区分方法是,与“steep”中的[E]相比,“step”中的[e]要短些。
对于每个输入,我们可以用两个数字为这类信息编码:预计的数值大小和该数值的变化程度。在“steep”中,[t]和 [p]的预计持续时间都非常短,预计变化程度也非常小(即我们并不期望听到长音 [t]和 [p]) 。[s]音的预计持续时间短,但变化程度也大一些,因为它可能拖长。[E]的预计持续时间长,变化程度也非常大。
在语音识别的例子中,“大小”数值参数指的是持续时间,但时间仅是其中一个可能维度。在字符识别中,我们发现类似的空间信息对于识别印刷体字母很重要(例如字母“i”上面的点应比其下面的部分小得多)。在更高的抽象层级中,大脑新皮质将模式和所有的连续统一起来处理,例如吸引力、讽刺、快乐、沮丧,还有其他无穷无尽的感觉的不同程度。我们可以从复杂多样的连续统中找到一些相似点,就像当初达尔文把地质峡谷的物理尺度与物种变异程度联系起来一样。
在人的大脑中,这些参数都源自大脑自身的经验。我们并非天生就有音位知识,不同语言的音位系统区别很大。每个模式识别器的习得参数,都来源于众多的模式实例。因为,要有许多模式实例才能把该模式输入的预计数值分布确定下来。在某些人工智能系统中,这些类型的参数是由专业人员手工编码而成的,例如,向我们说明不同音位预计持续时间的语言学家。我在研究中发现,让人工智能系统从训练数据中自行找出这些参数(与大脑处理的方式相似),这种途径反而更好。这就是说,将人类专家的直觉设为系统首选(即参数的初值),然后让人工智能系统利用真实语音实例的获取过程自动对这些估值进行完善。
模式识别模块所做的是计算概率(基于以往所有的经验),实际上,它负责识别的模式由其有效输入来表示。如果某个低层级模式识别器被激活(意味着低层级模式被识别出),那么与模块相对应的输入就是有效的。每个输入也会对已监测到数值大小加以编码(如短暂的持续时间或者物理量值,或者其他连续变量等维度),这样在计算模式总体概率时,就可以利用这个大小数值与模块做比较(与每个输入已设定的参数值进行比较)。
假设已经知道(1)输入(每个输入都有一个观测值)和(2)每个输入已设定的参数值(预计的数值大小和数值大小的变化程度),以及(3)每个输入的重要性参数,那么大脑如何计算模式(该模块负责识别的)展现的总体概率呢?20世纪80年代和90年代,为获取这些参数并利用它们识别层级模式,我和其他人首倡了一种叫作隐马尔可夫层级模型(hierarchical hidden Markov model)的数学方法。我们将该项技术应用到人类语音识别和自然语言的理解当中。我会在第7章中做进一步的说明。
再回到识别的流程:从模式识别器的一个层级到下一个层级。从上面的举例中,我们看到:信息沿着概念层级向上流动,从基本的字母特征到字母再到词语。识别会继续向上流动到短语,再到更为复杂的语言结构。如果我们向上再推进几个层级,就会涉及更高层级的概念,如讽刺和嫉妒。尽管各个模式识别器同时运作,在概念层级中,也得花费些时间才能向上推进。穿过每个层级所需的处理时间为数百分之一秒或几十分之一秒。实验表明,识别一般的高层级模式,如一张脸,要花费至少1/10秒。如果扭曲很明显,则要花费长达1秒的时间。如果大脑运作是连续的(就像传统电脑一样),并且按照序列运行每个模式识别器,那么在继续向下一个层级推进时就必须考虑每个可能的低层级模式。因此,通过每个层级就需要经历数百万个循环,这也是我们在电脑上模仿这些程序时实际发生的情况。但请记住,电脑处理的速度比我们的生理电路要快上数百万倍。
在此需要重点注意的是,信息不仅会沿着概念层级向上推进,也会向下传递。事实上,信息向下传递甚至更为重要。例如,我们从左至右阅读,早已看到并识别了“A”“P”“P”和“L”等字母,“APPLE”识别器就会预测下一位置上可能看到的是“E”。它就会向下传递信号到“E”识别器,也就是说:“请注意,你可能马上就会看到‘E’模式,请留意它的出现。”然后,“E”识别器就会调整其阈值,识别出“E”的可能就更大。所以,如果接下来出现的是有些像“E”的图象,但模糊不清,正常情况下无法识别,“E”识别器也可能会因为预期因素而指示看到的确实是“E”。
因此,大脑新皮质的工作就是对预计会碰到的事物进行预测。想象未来是我们拥有大脑新皮质的一个主要原因,在最高的概念层级,我们在不断预测——下一个经过这扇门的人将是谁,某个人接下来会说什么,转过弯我们将看到什么,我们行动的可能结果,等等。这类预测在大脑新皮质层级结构的每个层级中不断发生。我们之所以经常无法识别出人、事或词语,是因为当时设定的预期模式阈值太低。
除积极信号外,还有消极信号或抑制信号,它们代表某一特定的模式不太可能存在,这些信号可能来源于较低的概念层级。例如,在排队结账时,通过对胡子的识别,我就可以排除看到的人是不是我妻子;或更高层级,例如,我知道我妻子在外旅游,所以排队结账的人不可能是她。当模式识别器收到抑制信号时,它会提升阈值,但模式仍然可能被激活(所以如果排队结账的真是她,我仍会认出来)。