上QQ阅读APP看书,第一时间看更新
1.3 搜索引擎的一般结构
在学习了文本搜索引擎之后,我们是否可以从文本搜索引擎抽象出搜索引擎的一般结构呢?根据一般的抽象方法,我们可以把事物非关键性的特征剥离出来,而只保留其最为本质的特征。对于现有技术条件下的搜索引擎,必须事先生成索引库,再在其上进行搜索查询。如图1-10所示,首先需要对输入数据进行一定的预处理,以使我们可以对其进行进一步分析。接下来,把文本搜索引擎的词法、语法分析等语言处理阶段抽象为对输入数据的特征提取,一个个提取出来的词就是构成一个文档特征向量的基本元素,反向索引库就是特征和文档对应关系的集合。对于查询数据,我们也要抽取其特征,然后计算它的特征向量与索引库中所有特征向量的相似度,最终返回规定数量的相似结果。
图1-10 抽象搜索引擎结构