3.4 深度学习延伸之模式识别
3.4.1 模式识别简介
20世纪50年代末,出现了一种叫作“感知器”的数学模型,它可以用来模拟人类大脑进行识别。借助感知器对识别系统进行训练,可以让识别系统具有将未知类别的模式进行正确区分和归类的能力。1957年,用统计决策理论的方法来求解模式识别,促进了模式识别研究工作的发展。通过计算机实现人工智能的最初路径就是模式识别(Pattern Recognition)。模式识别的黄金时代出现在20世纪80年代,它强调的是如何让计算机程序去做一些看起来很智能的事情,就像是有个人躲在盒子里伪装成机器的样子。模式识别的主要作用在于发现、区分、检测或提取存在于我们周围世界中的模式,这取决于怎么从观察数据中进行信息的提取和表示,并结合背景知识最终得到新知识和概念的形式化内容。学习的结果是得到一个用于表示模式之间相互依赖的形式化知识,以此更好地理解与解释所观察的数据。当模式的概念被形式化后,它就可以被应用于相同的领域中。例如,对一个新用例进行标识且对于新用例的处理应当遵从与原来用例的相同的演绎过程,此时就可以应用模式识别的人工神经网络方法。
模式识别还与统计学、语言学和控制论等学科有关系,在人工智能领域中的图像处理和自然语言理解方面就包含模式识别问题。
所谓模式的概念,来自人类大脑的思维能力。人类在观察外界事物或现象时就会展开思维,对所观察到的事物或现象进行分类。如人类对字符的识别,一旦人类认识某个文字,尽管这个文字出现了不同的写法,即使以前从未见过,人类的大脑都会将它们归为同一类。这说明只要认识有限数量的事物或现象,就能识别出任意多的事物或现象。这些有限的事物或现象叫作各个模式。在人工智能领域,人们较早地开发出了识别声音、脸和动物之类的技术。对于模式识别技术而言,除记忆之外,抽象和推广能力是关键。
模式识别意在学习人类(或其他生物系统)在所处环境中发现、区别和找出特征从而标识出观察结果的本领,这属于认知科学的范畴,是生理学家、心理学家、生物学家和神经生理学家的工作范围;同时也专注于开发和评价模仿或辅助人类识别模式能力的系统,这是数学家、信息学专家和计算机科学家的用武之地。模式识别中工程的观点则是试图建立模拟生物识别能力的系统,这方面的研究已经取得了系统的成果,也给人工智能的发展打下了良好的理论基础。模式识别的方法主要包括决策理论方法、句法方法和统计模式识别3种。决策理论方法又称统计方法,该方法的操作顺序是先将识别对象进行数字化,转变成适于计算机处理的数字信息;随后进行特征抽取,从数字化后的输入模式中抽取一组特征;最后将抽取的特征进行分类。句法方法又称结构方法或语言学方法,指的是把一个模式分解为较简单的子模式,再将这些子模式分解为更简单的子模式,最终得到一个树形的结构。统计模式识别的主要方法有判别函数法、近邻分类法和非线性映射法等。
模式识别的流程可以概括如下。首先,通过各种传感器把被研究对象的各种物理变量转换为计算机可以识别的数值或符号的集合,这个集合称为模式空间,相应的数值或符号则称为信号。对模式空间的必要处理(如去除噪声的干扰、排除不相关的信号)是抽取有效识别信息的基础。在数据的识别中,模式空间中的信号经过特征量的提取和变换后被映射到新的空间中,这个新的空间就是特征空间。与原始的模式空间不同的是,特征空间中的元素是相互独立的,任意两个元素之间不存在相关性,这显然构成了描述信号的一组基本元素,这个过程也可以被看作特征抽象的过程。模型匹配正是借助特征空间上的基本元素进行的,通过对输入的对象进行同样的空间转换,模式识别系统会输出对象所属的类型或者是模型数据库中与对象最相似的模型编号。为了提升模式识别的精确性往往需要加入一些预先设定的规则以对可能产生的错误进行修正,或通过引入限制条件大幅缩小待识别模式在模型库中的搜索空间以减少匹配计算量。
3.4.2 模式识别的技术应用场景
在实践中,模式识别已被应用于文字识别、语音识别、指纹识别、遥感和医学诊断等方面。文字识别侧重于机器自动输入方面。将文字快捷、方便地输入计算机是提高人机接口效率的一个重要因素。就汉字来说,录入计算机主要靠人工键盘输入和机器自动识别输入,而机器自动识别输入又分为扫描识别输入和语音识别输入。从技术层面来说,手写体的输入要难于印刷体的输入。在这方面,脱机手写体的识别还存在一定的技术难度。在生物识别领域,声纹识别技术因具有方便性、经济性和准确性等优势而越来越受到关注,应用领域也不断拓宽,成了人们生活和工作中使用最为普及的安全方式。在遥感领域,图像识别技术早就广泛服务于农作物估产、资源勘察、气象预报和军事侦察等各个领域。在医学诊断方面,通过模式识别技术,在癌细胞检测、X射线照片分析和血液化验等方面都已取得明显的成效。
模式识别技术是人工智能的基础技术,随着智能化、信息化、计算化、网络化等方面的技术进步,模式识别技术得以持续发展。在国际上,一些权威研究机构和公司无不将模式识别技术作为战略研发的重点。其中,语音识别技术、生物认证技术和数字水印技术更是受到了前所未有的重视。
目前,模式识别技术最成功的应用非OCR莫属。OCR的本质是利用光学设备捕获图像并从中读取文字。未来的办公室中很可能出现这样的景象,只要使用手机等具备拍照功能的智能设备对会议板进行拍照,系统便能自动识别出照片中的讨论内容,分检出相关人员的后续工作,并将待办事项自动存放到各自的电子日历中。正是OCR的出现使这样的场景成为可能。
OCR中的技术难点在于字符的辨认与区分,其技术手段包括模式匹配识别法和特征提取识别法。其中,模式匹配识别法是将数字图像中的字符与已有数据库中的标准字符相比较,以找到最相似的匹配,寻找的过程通常是以迭代的方式进行的。
作为人机接口的关键技术,语音识别技术在应用方面已经发展成为具有竞争性的高新技术产业。据有关机构预测,未来5年内中文语音技术领域的市场容量将超过400亿元,并且还会以每年30%的速度增长。
生物认证技术已成为人们高度关注的安全认证技术。通过这项技术,将来人们可以不需要密码、磁卡来进行身份识别,而是通过自身的唯一性来标识身份和保护隐私。据国际数据集团(IDC)预测,未来10年内仅在移动电子商务领域,生物识别技术的市场规模将达到100亿美元。
数字水印技术是公认的最具发展潜力的数字版权保护技术。据IDC预测,未来5年内数字水印技术应用在全球市场的容量超过80亿美元。
模式识别是人类在日常生活中所自觉或不自觉采取的一种思维活动过程。随着计算机技术和人工智能的发展,人类希望用机器来代替或扩展部分脑力劳动。由此,模式识别成为人类植入机器内的一种“思维”活动。有关模式识别的研究也已发展成为一门新学科。作为人工智能的基础技术,模式识别技术必将承载着人工智能朝更高的目标前行。