上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
基础篇
第1章
Python基础及网络爬虫
网络爬虫(Web Crawler),有时候也叫网络蜘蛛(Web Spider),是指这样一类程序——它们可以自动连接到互联网站点,并读取网页中的内容或者存放在网络上的各种信息,并按照某种策略对目标信息进行采集(如对某个网站的全部页面进行读取)。实际上,Google搜索本身就建构在爬虫技术之上,像Google、百度这样的搜索引擎会通过爬虫程序来不断更新自身的网站内容和对其他网站的网络索引。某种意义上说,我们每次通过搜索引擎查询一个关键词,就是在搜索引擎服务器的爬虫程序所“爬”到的信息中进行查询。当然,搜索引擎背后所使用的技术十分复杂,其爬虫技术通常也不是一般的个人所开发的小型程序所能比拟的。不过,爬虫程序本身其实并不复杂,只要懂一点编程知识,了解一点HTTP和HTML,就可以写出属于自己的爬虫,实现很多有意思的功能。
在众多编程语言中,本书选择Python来编写爬虫程序,Python不仅语法简洁,便于上手,而且拥有庞大的开发者社区和浩如烟海的模块库,对于普通的程序编写而言是极为便利的。虽然Python与C/C++等语言相比可能在性能上有所欠缺,但毕竟瑕不掩瑜,是目前最好的选择。
学习目标
1.了解Python及其基础语法。
2.熟悉互联网与HTTP(超文本传输协议)。
3.掌握爬虫的运行原理。
4.掌握Python环境的配置方法。