第4章简单的网页爬虫开发_Python爬虫开发：从入门到实战（微课版）-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

■ 在第3章学习完正则表达式以后，我们已经可以实现先手动把网页复制下来并保存到一个文本文件中，再用Python读取文本文件中的源代码，并通过正则表达式提取出感兴趣的内容。但是爬虫的数据爬取量非常大，显然不可能对每个页面都手动复制源代码，因此就有必要使用自动化的方式来获取网页源代码。requests是Python的一个第三方HTTP（Hypertext Transfer Protocol，超文本传输协议）库，它比Python自带的网络库urllib更加简单、方便和人性化。使用requests可以让Python实现访问网页并获取源代码的功能。使用requests获取网页的源代码，最简单的情况下只需要两行代码：

      #使用requests获取源代码
      import requests
      source = requests.get('https://www.baidu.com').content.deocde()

通过这一章的学习，你将会掌握如下知识。

（1）requests的安装和使用。

（2）多线程爬虫的开发。

（3）爬虫的常见算法。