自制AI图像搜索引擎
上QQ阅读APP看书,第一时间看更新

第1章 从文本搜索到图像搜索

1.1 文本搜索引擎的发展Michael Busby. Learn Google: Wordware Publishing, Inc., 2003

1990年,加拿大麦吉尔大学的Alan Emtage等学生开发了一个名叫Archie的系统。该系统通过定期搜集分析散落在各个FTP服务器上的文件名列表,并将之索引,以供用户进行文件查询。虽然该系统诞生在万维网的出现之前,索引的内容也不是现代搜索引擎索引的网页信息,但它采用了与现代搜索引擎相同的技术原理,因此被公认为现代搜索引擎的鼻祖。

1991年,明尼苏达大学的学生Mark McCahill设计了一种客户端/服务器协议Gopher,用于在互联网上传输、分享文档。之后产生了Veronica、Jughead等类似于Archie,但运行于Gopher协议之上的搜索工具。

同一时期,英国计算机科学家Tim.Berners.Lee提出了将超文本和Internet相结合的设想,并将之称为万维网(World Wide Web)。随后,他创造了第一个万维网的网页,以及浏览器和服务器。1991年,他将该项目公之于众。自此,万维网成为了Internet的主流,全球进入了丰富多彩的WWW时代。搜索引擎也逐步从FTP、Gopher过渡到了万维网,并进一步演进。

1993年,麻省理工学院的学生Matthew Gray开发了第一个万维网spider程序WWW Wanderer,它可以沿着网页间的超链接关系对其进行逐个访问。起初,WWW Wanderer只是用来统计互联网上的服务器数量,后来加入了捕获URL的功能。虽然它功能比较简单,但它为后来搜索引擎的发展提供了宝贵的思想借鉴。这一构思激励了许多研究开发者在此基础上进行进一步改进和扩展,并将spider程序抓取的信息用于索引构建。我们今天在开发一个网站或做搜索引擎优化时所用到的robot.txt文件,正是告诉spider程序可以爬取网站的哪些部分,不可以爬取哪些部分的一份协议。同年,英国Nexor公司的Martin Koster开发了Aliweb。它采用用户主动提交网页简介信息,而非程序抓取的方式建立链接索引。是否使用robot、spider采集信息也形成了搜索引擎发展过程中的两大分支,前者发展为今天真正意义上的搜索引擎,后者发展为曾经风靡一时,能够提供分类目录浏览和查询的门户网站。

1994年可以说是搜索引擎发展史上里程碑的一年。华盛顿大学的学生Brain Pinkerton开发了第一个能够提供全文检索的搜索引擎WebCrawler。而在此之前,搜索引擎只能够提供URL或人工摘要的检索。自此,全文检索技术成为搜索引擎的标配。这一年,斯坦福大学的杨致远和David Filo创建了大家熟知的Yahoo,使信息搜索的概念深入人心,但其索引数据都是人工录入的,虽能提供搜索服务,但并不能称之为真正的搜索引擎;卡耐基梅隆大学的Michael Maldin推出了Lycos,它提供了搜索结果的相关性排序和网页自动摘要,以及前缀匹配和字符近似,是搜索引擎的又一历史性进步;搜索引擎公司Infoseek成立,在其随后的发展中,它首次允许站长提交网址给搜索引擎,并将“千人成本”(Cost Per Thousand Impressions,CPM)广告模式引入搜索引擎。

1995年,一种全新类型的搜索引擎——元搜索引擎诞生了,它是由华盛顿大学的学生Eric Selburg和Oren Etizioni开发的MetaCrawler。元搜索引擎采用将用户的查询请求分发给多个预设的独立搜索引擎的方式,并统一返回查询结果。但是由于各独立搜索引擎搜索结果的打分机制并不相同,常常返回一些不相干的结果,精准性往往并不如独立搜索引擎好,因此元搜索引擎始终没有发展起来。

同一年,DEC公司开发了第一个支持自然语言搜索及布尔表达式(如AND、OR、NOT等)高级搜索功能的AltaVista。它还提供了新闻组搜索、图片搜索等具有划时代意义的功能。

1998年,斯坦福大学的学生Larry Page和Sergey Brin创立了Google(谷歌)——一个日后影响世界的搜索引擎。Google采用了PageRank(网页排名)的算法,根据网页间的超链接关系来计算网页的重要性。该算法极大地提高了搜索结果的相关性,使其后来居上,几乎垄断了全球搜索引擎市场。