走进搜索引擎
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.3 准

在传统信息检索中,应用查准率(Precision)作为衡量检索是否准确的指标,查准率是检索出的相关文档数与检索出的文档总数的比率。例如在搜索引擎中查询“XML”,在实际检索出的网页数N中,只有P个网页是与查询“XML”相关(Relavant)的,那么查准率为P/N×100%。

通过图1-1,可以全面理解查全率和查准率的关系。

图1-1 查全率和查准率的关系

查全率=,其中对集合取| |运算的结果表示集合的数量。

查准率=

在搜索引擎这种特殊的检索实践中,查全率往往是不重要的。衡量的意义也不大,因为没有一个用户会把所有与查询相关的网页都浏览一遍。一般情况下,用户最为关注的仅仅为搜索结果中的前几条。而查准率在很大程度上决定了搜索的质量,在前10条搜索结果(搜索结果首页)中满足用户的查询目的,这是搜索引擎查准率的主要体现。

是否能查得准,主要取决于网页排序。常见的有PageRank等排序方法,在第3章中将介绍这方面的内容,在第7章中也会做详细介绍。