上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
2.1.2 爬虫的发展历程
现代搜索引擎的思路源于Wanderer,不少人改进了Matthew Grey的蜘蛛程序。1994年7月,Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了当时著名的搜索引擎Lycos(http://www.lycos.com/)。其后无数的搜索引擎促使爬虫越写越复杂,并逐渐向多策略、负载均衡及大规模增量抓取等方向发展。爬虫的工作成果使得搜索引擎能够检索几乎全部的万维网网页,甚至被删除的网页也可以通过一个称之为“网页快照”的功能访问。
前人的辉煌成就令人赞叹不已,那么爬虫是怎么实现这些功能的呢?为什么说它巧妙、合理且强大呢?让我们首先从爬虫开始入手,深入理解搜索引擎的下载系统。