目前,基于文本信息的搜索引擎虽然还有一定的提升空间,但其工作原理已经相对稳定,基本结构也已趋于成熟。文本搜索引擎基本可以分为抓取部分、预处理部分、索引部分、搜索部分以及用户接口,如图1-1所示。
图1-1 文本搜索引擎结构
由于抓取部分不是本书所讨论的内容,故不做详细介绍。下面来着重介绍一下文本数据预处理、索引及搜索。