1.1 网络爬虫概述_Python网络爬虫从入门到精通-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

1.1　网络爬虫概述

网络爬虫（又被称为网络蜘蛛、网络机器人，在某社区中经常被称为网页追逐者），可以按照指定的规则（网络爬虫的算法）自动浏览或抓取网络中的信息，通过Python可以很轻松地编写爬虫程序或者是脚本。

在生活中网络爬虫经常出现，搜索引擎就离不开网络爬虫。例如，百度搜索引擎的爬虫名字叫作百度蜘蛛（Baiduspider）。百度蜘蛛，是百度搜索引擎的一个自动程序。它每天都会在海量的互联网信息中进行爬取，收集并整理互联网上的网页、图片视频等信息。然后当用户在百度搜索引擎中输入对应的关键词时，百度将从收集的网络信息中找出相关的内容，按照一定的顺序将信息展现给用户。百度蜘蛛在工作的过程中，搜索引擎会构建一个调度程序，来调度百度蜘蛛的工作，这些调度程序都是需要使用一定算法来实现的，采用不同的算法，爬虫的工作效率也会有所不同，爬取的结果也会有所差异。所以，在学习爬虫时不仅需要了解爬虫的实现过程，还需要了解一些常见的爬虫算法。在特定的情况下，还需要开发者自己制定相应的算法。