1.1 处理序列问题的一般步骤_深入浅出Embedding：原理解析与应用实践-QQ阅读男生轻小说网

上QQ阅读APP看书，第一时间看更新

1.1　处理序列问题的一般步骤

序列问题是非常常见的，如自然语言处理、网页浏览、时间序列等都与序列密不可分。因此，如何处理序列问题、如何挖掘序列中隐含的规则和逻辑非常重要。

以自然语言处理为例。假设你拿到一篇较长文章或新闻报道之类的语言材料，要求用自然语言处理（NLP）方法提炼出该材料的摘要信息，你该如何处理？需要考虑哪些内容？涉及哪些步骤？先从哪一步开始？

拿到一份语言材料后，不管是中文还是英文，首先需要做一些必要的清理工作，如清理特殊符号、格式转换、过滤停用词等，然后进行分词、索引化，再利用相关模型或算法把单词、词等标识符向量化，最后输出给下游任务，具体处理步骤如图1-1所示。

图1-1　序列问题的一般处理步骤

在图1-1中，词嵌入或预训练模型是关键，它们的质量好坏直接影响下游任务的效果。词嵌入与训练模型阶段涉及的算法、模型较多，近几年也取得了长足发展，如word2vec、Transformer、BERT、ALBERT等方法，刷新了自然语言处理、语言识别、推荐任务、搜索排序等任务在性能方面的纪录。下面将从最基本的word2vec—Word Embedding开始介绍。