1.1 自然语言处理综述
1.1.1 自然语言处理的基本概念
语言是生物同类之间由于沟通需要而形成的,具有统一编码解码标准的指令。语言的魅力和独特性在于不同的语境也会赋予语言不同的意义,需要匹配相应的逻辑思维去理解并进行对话,当这样的对话发生在没有相似思维和经历的两者身上时,沟通就变得不再顺畅,大大增加了沟通的成本。
自然语言是人们交流情感最基本、最直接、最方便的表达工具,人们日常使用的汉语、英语、法语等都是自然语言,它是随着人类社会发展演变而来的。概括来讲,自然语言是指人类社会约定俗成的,区别于人工语言(如程序设计语言等)的语言。
通俗来讲,自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别,分类,提取转换和生成等各种处理方法和实现技术。
随着计算机和互联网技术的发展,自然语言处理技术已在各领域广泛应用。自然语言处理技术在各领域的应用如图1.1所示,在当今的人工智能革命中,计算机将代替人工处理大规模的自然语言信息。我们平时常用的搜索引擎、新闻推荐、智能音箱等产品,都是以自然语言处理技术为核心的人工智能产品。
图1.1 自然语言处理技术在各领域的应用
1.1.2 自然语言处理的发展历程
自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期,1957-1970年的快速发展期,1971-1993年的低谷发展期和1994年至今的复苏融合期。图1.2所示为自然语言处理的发展历程。
1948年香农把马尔科夫过程(Markov Progress)应用于自然语言建模,并提出把热力学中“熵”(Entropy)的概念扩展到自然语言处理领域。自然语言跟其他物理世界的符号一样,是具有规律的,因此统计分析可以帮助我们更好地理解自然语言。
1956年诺姆·乔姆斯基(Noam Chomsky)提出了“生成式文法”的概念,他认为在客观世界存在一套完备的自然语言生成规律,每一句话都遵守这套规律,人们可以通过总结客观规律掌握自然语言的奥秘。从此,自然语言处理的研究进入了快速发展期。
图1.2 自然语言处理的发展历程
在自然语言处理的快速发展期,自然语言处理的研究在这一时期分为了两大阵营。一个是基于规则方法的符号派(Symbolic),另一个是以概率统计为基础的连接主义派。在这一时期,两种方法的研究都取得了长足的发展。1966年,完全基于规则的对话机器ELIZA(见图1.3)在MIT人工智能实验室诞生了。
图1.3 完全基于规则的对话机器人ELIZA
随着计算机及相关技术的发展和算力的提升,以及互联网的爆炸式发展和GPU算力的进一步提高,自然语言处理迈入了深度学习时代。基于海量的数据,并结合神经网络的强大拟合能力,现如今我们可以解决各种自然语言处理问题。越来越多的自然语言处理技术趋于成熟并显现出巨大的商业价值,自然语言处理和人工智能技术进入了复苏融合期。
1.1.3 自然语言处理的研究内容
自然语言处理在广义上可以分为两大类:第一类是自然语言理解,是指让计算机读懂人的语言,懂得人的意图;第二类是自然语言生成,它的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的自然语言的格式。自然语言处理的技术按照由浅入深可以分为三个层次,分别为基础技术、核心技术和应用。语言处理技术的相关内容,如表1.1所示。
表1.1 语言处理技术的相关内容
自然语言处理的基础技术主要处理以自然语言中的词汇、短语、句子等为研究对象的任务。词法分析、句法分析、命名实体识别属于词和短语级别的任务,涉及的技术包括分词、词性标注等。语义分析和篇章分析属于句子和段落级别的任务,涉及的技术包括成分句法分析和依存句法分析等。
自然语言处理的核心技术是建立在基础技术之上的,如基础技术中词法、句法的分析越准确,核心技术的结果才能更准确。下面介绍核心技术的具体内容。
1.机器翻译
机器翻译指的是实现一种语言到另一种语言的自动翻译。目前,谷歌翻译、百度翻译、搜狗翻译等行业巨头推出的翻译平台占据了翻译行业的主导地位。
2.问答系统
问答系统是指计算机利用计算系统理解人提出的问题,并根据自动推理等手段,在已有的知识资源中进行检索、匹配,将获取的结果反馈给用户的系统。
3.情感分析
情感分析可以定义为一个分类问题,即指定一个文本输入,计算机通过对文本进行分析、处理和归纳后自动判断文本的情感类别。情感类别一般分为积极、消极和中性。
4.信息抽取
信息抽取是指从文本或海量文本中抽取用户感兴趣的信息的技术。
5.文本摘要
文本摘要是指将原文档的主要内容或某方面的信息自动提取出来,形成原文档的摘要和缩写的技术。
目前智能客服、个人助理、推荐系统等自然语言处理的应用已经涉及人们生活的方方面面,这些都得益于自然语言处理技术的飞速发展。舆情分析可以帮助企业及时获取负面舆情,从而进行网络舆情的引导,使企业掌握信息传播的主动权。知识图谱的应用也在很大程度上提高了自然语言处理任务的准确性,进一步推动了自然语言处理技术的发展。自然语言处理技术的发展也使得人工智能可以面对更加复杂的情况、解决更多的问题,也为我们带来了一个更加智能的时代。
1.1.4 自然语言处理的挑战与发展趋势
1.自然语言处理技术面临的挑战
如何让计算机像人一样思考,并能够准确理解和使用自然语言?这是当前自然语言处理领域面临的最大挑战。自然语言的形态各异,同样的句子在不同的语境中可以具有完全不同的意思,理解自然语言本身就是一件复杂的事情。例如,结构问题、歧义性问题都是自然语言处理常见的难点。我们可以通过以下几个例子感受一下。
1)结构问题
结构问题主要是研究句子成分之间的相关关系和句子组成序列的规则,下面三句话中前两句的含义是相近的,但是和第三句的含义则完全不同。
2)歧义性问题
请问如何理解“自动化研究所取得的成就”这一句话?这一句话按照不同的切分方式可以有不同的含义,一种是自动化研究取得了哪些成就,另一种则是自动化研究所取得了哪些成就。
从上面的案例中我们可以感受到,自然语言处理有着大量的歧义现象,同时也面临着各种各样的挑战。归纳起来,自然语言处理面临的挑战如下。
(1)普遍存在的不确定性:词法、句法、语义和语用等各个层面。
(2)未知语言现象不可预测性:新的词汇、新的术语、新的语义和语法无处不在。
(3)始终面临数据的不充分性:有限的语言集合无法涵盖开放的语言现象。
(4)语义知识表达的复杂性:语义知识模型和错综复杂的关联性难以用常规的方法进行有效描述,这为语义的计算带来了极大的困难。
2.自然语言处理的发展趋势
随着深度学习时代的来临,预训练模型成了一种强大的学习工具,自然语言处理取得了许多突破性的进展,在机器翻译、智能问答、情感分析等领域都飞速发展。另外,超大规模的预训练模型成为全球人工智能技术研发的热点和竞争的焦点,有望引领未来十年的技术跃迁,自然语言处理的研究也进入了“大模型+大算力”的时代。
OpenAI在2020年5月发布了当时最大的预训练模型,参数达到1750亿个,在文本生成、对话、搜索等任务上性能优异。图1.4所示为GPT-3的聊天机器人和文本图像生成。
图1.4 GPT-3的聊天机器人和文本图像生成
2021年6月,智源研究院发布了“悟道2.0”模型,“悟道2.0”模型的参数规模达到1.75万亿个,是GPT-3的10倍,打破了之前由Google Switch Transforemr预训练模型创造的1.6万亿个参数记录。“悟道2.0”模型是中国首个万亿级模型。
“悟道”系列超大智能模型的目标是打造数据和知识双轮驱动的认知智能,让机器能够像人一样思考,得到超越图灵测试的机器认知能力。“悟道2.0”模型在问答、作诗、视频、绘画、菜谱等多项任务中正逼近图灵测试。图1.5所示为“悟道2.0”模型根据输入内容生成的诗词。
图1.5 模型根据输入内容生成的诗词
总而言之,自然语言处理一直被视为实现强人工智能的核心技术之一,它的最终目标是缩短甚至消除人类交流和计算机理解之间的差距。随着计算机科学和人工智能的发展,自然语言处理将对科技进步做出不可磨灭的贡献。