自然语言处理导论
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 自然语言处理的基本概念

语言是人类与其他动物最重要的区别,而人类的多种智能也与此密切相关。逻辑思维以语言的形式表达,大量的知识也以文字的形式记录和传播。如今,互联网上已经拥有数万亿个网页资源,其中大部分信息都是以自然语言描述的。因此,如果人工智能想要获取知识,就必须懂得如何理解人类使用的不太精确、可能有歧义、混乱的语言。

自然语言处理的目标就是实现人机之间的有效通信,这意味着要使计算机能够理解自然语言的意义,也能以自然语言文本来表达给定的意图、思想等[1]。前者称为自然语言理解(Natural Language Understanding,NLU),后者称为自然语言生成(Natural Language Generation,NLG)。需要说明的是,自然语言处理、自然语言理解以及计算语言学这些概念并没有严格统一的定义。本书采用吴立德教授在1997年所著的《大规模中文文本处理》中所给出的定义。无论是自然语言理解还是自然语言生成,目前都是开放性问题(Open Problem),通用的高精度、高稳健性自然语言处理系统还没有解决方案,仍然需要长期研究。但是针对特定领域的应用,很多具有自然语言处理能力的系统已经有产业化应用,例如智能客服系统、机器翻译系统、语音助手、电子邮件筛选、新闻写作、智慧教育、司法辅助等。