第1章 绪论
1.1 智能感知的中文信息处理研究
人类进入信息时代,为了使计算机更加“聪明”,而不是只能按照预先为它编制好的程序进行操作,计算机科学家也开始对人工智能进行研究,希望能设计出跟人一样能在新情况中做出恰当反应的机器。当一个计算机系统能给出有关问题的正确答案或有用建议,而解决问题所用的概念和推理跟人相当,还能解释推理过程时,就可以说这样的计算机系统是有智能的。自然语言处理(Natural Language Processing, NLP)是人工智能中极其活跃的研究领域,也是研究开发新一代智能计算机必须完成的重要研究课题。《国家中长期科学和技术发展规划纲要(2006—2020年)》将“智能感知技术”列为信息技术的“前沿技术”,明确指出“重点研究基于生物特征、以自然语言和动态图像的理解为基础的‘以人为中心’的智能信息处理和控制技术,中文信息处理”。
以智能感知技术为背景,对语言的处理就不能满足于对语言形式的处理,只有深入语义一层,才有可能使语言的处理具有智能的色彩。对语言形式的处理包括词语切分、词性标注、短语标注等,这是前一阶段自然语言处理(NLP)研究的重点,目前的信息处理应用系统主要以此为基础。然而,考虑到如何优化自然语言处理的任务时,语义空缺成了发展的瓶颈:美国TREC会议从1998年到2004年公布的信息抽取正确率最高只有约40%,需要解决的关键问题是如何让机器理解用户的查询需求,如何对查询语句进行同义、同类等意义关系的扩展;目前的自动问答系统主要是基于模式匹配和概率统计技术,对语言形式进行处理,2004年TREC公布的自动问答系统的正确率为65%,下一步迫切需要在语义层面上进行匹配,同时还需要具备一定的常识知识和推理能力;MTEval 94评测的机器翻译正确率最高约70%(根据不同的评价体系,这个数值会有所不同),最大瓶颈问题是大量多义词造成的歧义现象。可见,无论做信息抽取、问答系统还是机器翻译,语义知识库是所有这些应用的不可或缺的基础性资源。因此,20世纪80年代以来,自然语言处理从句法学方面转移到语义学和语用学方面,而语义学是重点,词一级语言单位的语义知识库的构建又是重中之重。
然而就语义知识库的内容来说,在自然语言处理向智能化迈进的背景下,要使计算机具有推理能力,传统的只提供单个词语的概念意义是远远不够的,基于真值的形式逻辑来描写语义也是不够用的,语义知识库的构建必然要探索人脑理解语言的机制,从认知的角度描写语言知识,重视对语言理解的认知加工过程和语义信息处理的微观机制的研究,并加以形式化,从而为计算机处理、理解自然语言提供切实有用的语义知识库。但现阶段让语义知识库提供推理所需的全部常识、脚本知识等是不现实的。目前的语义知识库建设要达到复杂的智能化的推理这个远期目标还有很长的路要走,在起步阶段,可以先从词一级语言单位的一定范围的语义知识描述入手。因此,本书的研究定位于以词语为描述对象,构建一个具有一定层级关系的抽象化的语义网络,并基于语义处理开展应用探索研究。
本书正是基于智能感知技术研究的需要,围绕中文信息处理的语义知识库建设这一问题,进行思索的结果。