实战Python网络爬虫
上QQ阅读APP看书,第一时间看更新

5.8 本章小结

本章主要讲解了Python自带模块Urllib的功能和使用。Urllib通常用于爬虫开发和API(应用程序编程接口)数据获取和测试。在Python 2和Python 3中,Urllib的语法有明显的改变。其常用的语法有以下几种。

● urllib.request.urlopen:urllib最基本的使用功能,用于访问URL(请求链接)的唯一方法。

● urllib.request.Request:声明request对象,该对象可自定义请求头(header)、请求方式等信息。

● urllib.request.ProxyHandler:动态设置代理IP池,可加载请求对象。

● urllib.request.HTTPCookieProcessor:设置Cookies对象,可加载请求对象。

● urllib.request.build_opener():创建请求对象,用于代理IP和Cookies对象加载。

● urllib.parse.urlencode(data).encode('utf-8'):请求数据格式转换。

● urllib.parse.quote(url):URL编码处理,主要对URL上的中文等特殊符号编码处理。

● urllib.parse.unquote(url):URL解码处理,将URL上的特殊符号还原。

除了Urllib之外,一些特殊请求需要结合其他模块配合使用,如Cookies读写由HTTP模块完成,关闭证书验证需要SSL模块设置,等等。