走进搜索引擎
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.1 搜索引擎的体系结构

搜索引擎的结构清晰,分工明确。按照各自的功能划分,分为以下4大系统:

(1)下载系统;

(2)分析系统;

(3)索引系统;

(4)查询系统。

其中下载系统负责从万维网上下载各种类型的网页,并且保持对万维网变化的同步,将在第2章中详细介绍。

分析系统负责抽取下载系统得到的网页数据,并进行PageRank和分词计算,将在第3章中详细介绍。

索引系统负责将分析系统处理后的网页对象索引入库,将在第4章中详细介绍。

查询系统负责分析用户提交的查询请求,然后从索引库中检索出相关网页并将网页排序后,以查询结果的形式返回给用户,将在第5章中详细介绍。

搜索引擎简要结构如图1-2所示。

图1-2 搜索引擎的简要结构图

从整体上看,下载系统、分析系统和索引系统组成了搜索引擎的数据制作部分,被称为是“离线部分”(offline part);查询系统为搜索引擎的数据服务部分,要求快速响应,因此被称为“在线部分”(online part)。按照离线和在线划分,搜索引擎又可分为在线系统和离线系统。其中在线系统需要毫秒级的访问速度,而离线系统则没有时间性的严格限制,有些需要长达几周的时间才能计算完毕。

从细节上看,网页从开始到最后都是网页。而在搜索引擎的内部会有两种不同的形式,一种以网页库的方式存储;一种成为网页对象被存储在索引库中。搜索引擎的主要数据来自网页,网页处理能力是搜索引擎面对的主要挑战,下载系统和索引系统分别会进行一些关于数据存储的相关知识的介绍。

一个网页在万维网(WWW)中诞生,然后被下载系统下载,进而被分析并索引入库,最后因为该网页包含的一个关键词被检索而进入用户(Client)的大脑。这样一个奇妙的旅行都经历了哪些细节?各个系统内部如何工作?搜索引擎的全部画卷将在接下来的4章中按照这个顺序一一展开。