2.3.1 urllib库_Python网络爬虫技术与应用-QQ阅读男生武侠网

上QQ阅读APP看书，第一时间看更新

2.3　基本库的使用

2.3.1　urllib库

在Python 3中，urllib和urllib2进行归并，目前只有一个urllib模块，urllib和urllib2中的内容整合进urllib.request，urlparse整合进urllib.parse。

（1）urlparse把urlstr解析成各个组件，代码如下：

    #-*- coding:utf-8 -*-
    import urllib.request
    import urllib.parse
    urlstr = "http://www.baidu.com"
    parsed = urllib.parse.urlparse(urlstr)
    print(parsed)

解析组件执行结果如图2-17所示。

图2-17　解析组件执行结果

（2）urljoin把URL的根域名和新URL拼合成一个完整的URL，代码如下：

    import urllib.parse
    url = "http://www.baidu.com"
    new_path = urllib.parse.urljoin(url,"index.html")
    print(new_path)

（3）urlopen打开一个URL的方法，返回一个文件对象，而后能够进行类似文件对象的操作，代码如下：

    import urllib.request
    req = urllib.request.urlopen('http://www.baidu.com')
    print(req.read())

2.3 基本库的使用

2.3.1 urllib库

2.3　基本库的使用

2.3.1　urllib库