Python网络爬虫技术与应用
上QQ阅读APP看书,第一时间看更新

2.3 基本库的使用

2.3.1 urllib库

在Python 3中,urllib和urllib2进行归并,目前只有一个urllib模块,urllib和urllib2中的内容整合进urllib.request,urlparse整合进urllib.parse。

(1)urlparse把urlstr解析成各个组件,代码如下:

    #-*- coding:utf-8 -*-
    import urllib.request
    import urllib.parse
    urlstr = "http://www.baidu.com"
    parsed = urllib.parse.urlparse(urlstr)
    print(parsed)

解析组件执行结果如图2-17所示。

图2-17 解析组件执行结果

(2)urljoin把URL的根域名和新URL拼合成一个完整的URL,代码如下:

    import urllib.parse
    url = "http://www.baidu.com"
    new_path = urllib.parse.urljoin(url,"index.html")
    print(new_path)

(3)urlopen打开一个URL的方法,返回一个文件对象,而后能够进行类似文件对象的操作,代码如下:

    import urllib.request
    req = urllib.request.urlopen('http://www.baidu.com')
    print(req.read())