Python爬虫开发:从入门到实战(微课版)
上QQ阅读APP看书,第一时间看更新

■ 在第3章学习完正则表达式以后,我们已经可以实现先手动把网页复制下来并保存到一个文本文件中,再用Python读取文本文件中的源代码,并通过正则表达式提取出感兴趣的内容。但是爬虫的数据爬取量非常大,显然不可能对每个页面都手动复制源代码,因此就有必要使用自动化的方式来获取网页源代码。requests是Python的一个第三方HTTP(Hypertext Transfer Protocol,超文本传输协议)库,它比Python自带的网络库urllib更加简单、方便和人性化。使用requests可以让Python实现访问网页并获取源代码的功能。使用requests获取网页的源代码,最简单的情况下只需要两行代码:

      #使用requests获取源代码
      import requests
      source = requests.get('https://www.baidu.com').content.deocde()

通过这一章的学习,你将会掌握如下知识。

(1)requests的安装和使用。

(2)多线程爬虫的开发。

(3)爬虫的常见算法。