深入浅出Embedding:原理解析与应用实践
上QQ阅读APP看书,第一时间看更新

第1章
万物皆可嵌入

近些年在机器学习、深度学习等领域,嵌入(Embedding)技术可谓发展迅猛、遍地开花。那么,嵌入是什么?嵌入为何能引起大家的极大关注?嵌入有哪些新进展?接下来会对这些问题进行说明。

简单来说,嵌入是用向量表示一个物体,这个物体可以是一个单词、一条语句、一个序列、一件商品、一个动作、一本书、一部电影等,可以说嵌入涉及机器学习、深度学习的绝大部分对象。这些对象是机器学习和深度学习中最基本、最常用、最重要的对象,正因如此,如何有效表示、学习这些对象就显得非常重要。尤其word2vec这样的Word Embedding的广泛应用,更是带来了更大范围的延伸和拓展,嵌入技术由最初的自然语言处理领域向传统机器学习、搜索排序、推荐、知识图谱等领域延伸,具体表现为由Word Embedding向Item Embedding、Graph Embedding、Categorical variables Embedding等方向延伸。

Embedding本身也在不断更新,由最初表现单一的静态向表现更丰富的动态延伸和拓展。具体表现为由静态的Word Embedding向ELMo、Transformer、GPT、BERT、XLNet、ALBERT等动态的预训练模型延伸。

上面介绍了近几年出现的一些英文热词,那么,这些词语具体表示什么含义?功能是什么?如何使用?这就是本书接下来要介绍的主要内容。本章主要涉及如下内容:

  • 处理序列问题的一般步骤
  • Word Embedding
  • Item Embedding
  • 用Embedding处理分类特征
  • Graph Embedding
  • Contextual Word Embedding
  • 使用Word Embedding实现中文自动摘要