![Python 3网络爬虫实战](https://wfqqreader-1252317822.image.myqcloud.com/cover/139/36862139/b_36862139.jpg)
1.2 Python 3.8.0开发环境配置
Python在PC三大主流平台(Windows、Linux和OS X)都可以使用。在这里只讲解在Windows和Linux下的开发环境配置。Windows平台以Windows 10为例,Linux平台以Debian 8为例。
1.2.1 在Windows下安装Python
步骤01 打开Chrome浏览器,在地址栏输入Python官网地址www.python.org,如图1-1所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P19_39244.jpg?sign=1734415539-1SoJEhn9i3XBYhjRESzMJseqQpjjzkb4-0-e928e6de30cc88526b9f6e1758bd1a15)
图1-1 Python官网
步骤02 单击“Download Python 3.8.0”按钮直接下载。如果进入Python其他版本的下载页面,就单击下载链接,效果如图1-2所示。
步骤03 一般Windows版本的Python安装文件有3个:一个是绿色解压缩版本,一个是正常的安装版本,还有一个是网络安装版本。绿色安装版本需要自行添加环境变量。正常的安装版本安装更简单一些,所以本例下载的是Windows x86-64 executable installer。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P20_39245.jpg?sign=1734415539-DrSTvKzWn7p0MWHP2ghxM9IFpfTp6969-0-6d1348636c006ec07ca061a605e1d237)
图1-2 Python下载
步骤04 下载完毕后,得到安装文件python-3.8.0-amd64.exe。以管理员身份运行安装程序,开始安装Python 3.8,如图1-3所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P20_39246.jpg?sign=1734415539-vwA6f6DL5Qj2GHm3PPys0PZ8S2oJCzQ0-0-0396a2f877f3032fa6c8ecfe2e67c017)
图1-3 安装Python
提示
务必选择图1-3下方的“Add Python 3.8 to PATH”复选框,这样后期安装完成后不用配置路径。
步骤05 单击“Customize installation”按钮,选择Python安装组件,将全部组件都选上,如图1-4所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P21_39247.jpg?sign=1734415539-xICmNGpxJRg7ptvUohQsTTpZG0z0qupK-0-579a757d022373b2ff65811c425f12e2)
图1-4 选择Python组件
步骤06 单击“Next”按钮,进入Python环境设置界面,如图1-5所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P21_39248.jpg?sign=1734415539-12lW9pR7TReSR6Gh9XHc8jKMStFRclND-0-e8a33a3bdcbce9903a308966956f999e)
图1-5 Python环境设置
选择“Add Python to environment variables”选项,将Python加入系统环境变量中,选择“Install for all users”选项,允许所有用户使用Python,修改一个合适的安装目录,单击“Install”按钮开始安装Python。
步骤07 安装完毕后,单击“Close”按钮,如图1-6所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P21_39249.jpg?sign=1734415539-3kXhnFQXwUGC5KP6JkQZGM65zvjC2Nvg-0-b90833b86bd69e66ea40f42923de2723)
图1-6 安装Python
步骤08 验证Python是否安装成功。单击桌面左下角的“开始”菜单,在地址栏输入cmd.exe后按Enter键,如图1-7所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P22_39250.jpg?sign=1734415539-p2tbTcmpvm4s9If3wEDM8GZksaFHZ3VC-0-bc100f4403163a83f56b1ea85759da80)
图1-7 启动系统命令行工具cmd.exe
步骤09 Windows系统命令行程序,执行命令,验证Python是否安装成功,如图1-8所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P22_39251.jpg?sign=1734415539-HDvEVQx8C3Lurv6W3oOXiw849v0QuWms-0-18eb737898292ae0b2fe0a050f6db0c7)
图1-8 验证Python是否安装成功
由图1-8可见,Python已经安装成功,并且已经将路径添加到环境变量中。依次单击桌面左下角的“开始”|“所有程序”菜单选项,再单击“Python 3.8”文件夹,就可以看到Python的菜单,如图1-9所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P22_39252.jpg?sign=1734415539-sGFF6kEVQCzECC5wakliIz9Z80PC6TtD-0-ae2c9a91a160e4dfbd7d58d0358897a6)
图1-9 Python 3.8菜单
提示
在安装Python的同时也安装了Python自带的IDE(IDLE和本地的模块说明文档)。这个文档的说明很详细,一般只需要看这个文档就足够了。
至此,Python 3.8已在Windows上安装验证成功,可以愉快地使用Python了。
1.2.2 在Windows下安装配置pip
pip是Python的模块安装工具,有点类似于Debian系统的apt-get、Fedora系统的yum以及Windows系统的QQ软件管理器,都是一键安装软件工具,不同的是pip只负责安装Python模块。在安装Python时默认已经安装了pip组件,直接开始配置即可。
注意
读者选择默认安装源的情况下,本小节内容可以忽略。
因为pip的服务器安装源在国外,所以使用pip从国外服务器安装Python第三方模块将是一个很痛苦的过程。好在有变通的方法,在国内也有pip的镜像源,只需要在pip的配置文件中将pip的安装源指向国内的服务器,这个问题就解决了。
根据pip的指南,在Windows中,pip的配置文件是%HOME%/pip/pip.ini(具体到当前环境,本书使用的Windows当前用户是king,配置文件位置就是C:\Users\king\pip\pip.ini)。默认情况下,pip文件夹和pip.ini文件都未被创建,需要自行创建。按照pip的指南创建文件夹和文件后,pip.ini文件内容如下:
[global] index-url = https://pypi.mirrors.ustc.edu.cn/simple #index-url = http://pypi.hustunique.com/simple #index.url = http://pypi.douban.com/simple
提示
这里一定是pip.ini,而不是pip.ini.txt。在Windows中显示文件的后缀名,确认配置文件的文件名。
修改后的结果如图1-10所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P23_39253.jpg?sign=1734415539-xYGCVBR9BJX6HTkb1wxryF5n38V94H19-0-9b92b1d414e2d44c9d267fef52858995)
图1-10 修改pip.ini
图1-10中准备了3个pip源,任选其一即可。选择的方法就是在不需要的源地址前面加上#符号。下面来验证一下修改源地址是否成功,执行如下命令:
python –m pip install –-upgrade pip
此命令的作用是更新pip源,结果如图1-11所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P24_39255.jpg?sign=1734415539-NvSujUX52vAQK9ZF6IopOe9DhxWngyYg-0-ca0ce4b4b20492517075909b4c81c5ce)
图1-11 更新pip源
可以看出,配置文件中的新源已经起作用了。下面测试一下pip。单击桌面左下角的“开始”菜单,在地址栏中输入cmd.exe后按Enter键,启动Windows系统的“命令提示符”程序,执行命令,如图1-12所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P24_39254.jpg?sign=1734415539-OtYWArx8VhGzorApfYRmMjzYJvsvCMsr-0-7ddb9aa89af8761a9d7085247d3b8856)
图1-12 测试pip
至此,pip已配置完毕。
1.2.3 在Linux下安装Python
首先连接到虚拟机pyDebian上。连接工具当然是Putty了(SSH远程连接工具有很多,这里只是选了一个顺手的,使用其他的工具连接并不影响结果)。下面先用Putty连接这个Linux机器。
步骤01 双击Putty图标,打开Putty.exe,填入IP地址和端口信息,如图1-13所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P25_39256.jpg?sign=1734415539-Pv8jxe60YTKOoH4SWbuTljRfkvhq6U4z-0-34a713456a197d985edd0c69633d1c50)
图1-13 Putty连接设置
步骤02 单击“Open”按钮,第一次使用Putty登录Linux会有一个安全警告提示,如图1-14所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P25_39257.jpg?sign=1734415539-eHORcyQGJcowxzLU6cWQ2BNbRbauRtb8-0-f3974696abb9d32a66318f63d8dffff5)
图1-14 Putty安全警告提示
步骤03 单击“是(Y)”按钮,进入Linux的登录界面(用户名和密码使用默认的king:qwe123),如图1-15所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P25_39258.jpg?sign=1734415539-AVwlBxtVoPEIsKcCMQnLkWTi0ddM6ehx-0-0298c968ff7de800499af4cfe3059962)
图1-15 登录Linux
步骤04 输入用户名和密码后(密码不回显),即可登录Linux。
Debian Linux默认安装了Python 2和Python 3(几乎所有的Linux发行版本都默认安装了Python)。Python命令默认指向Python 2.7。下面验证一下Python的路径,执行如下命令:
whereis python ls –l /usr/bin/python ls –l /usr/bin/python3
执行结果如图1-16所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P26_39259.jpg?sign=1734415539-DehFgy5KaSdLaWYCdfwn7rkwoFoHyo7K-0-c4c8f28ec8e36d9918505e4703140668)
图1-16 查看Python路径
再来看看Python的版本信息,执行如下命令:
python2 -V python3 -V
执行结果如图1-17所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P26_39260.jpg?sign=1734415539-INYTLmTcGXORoIpY0tb0zpumCXMzHYRU-0-3d9aff30b5abe03bc33181e3a74ff778)
图1-17 Python版本信息
从图1-17中可以看出,Linux上安装的Python版本与官网上的最新版本是不同的。这是正常现象,一般来说Debian Linux会使用软件的最稳定版本,而Ubuntu Linux会使用软件的最新版本。
1.2.4 在Linux下安装配置pip
如同Windows中的Python一样,Linux中的Python同样需要模块安装的管理工具pip。遗憾的是,多数Linux版本并没有默认安装这个管理工具(Debian可以使用apt-get安装大部分的Python第三方模块,只有极少数的模块不能使用apt-get安装),所以需要自己安装。
从Debian Linux中安装pip,执行如下命令:
su - apt-get install python3-pip
执行结果如图1-18所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P27_39262.jpg?sign=1734415539-T68CZrXGTdR9pgca9AOgsZWoHqkDJObE-0-b381a64df26a0220e8d069993b961ea9)
图1-18 安装pip
输入su命令后,再输入系统root用户的登录密码。该命令的作用是使用root用户登录系统,并使用root用户的环境变量。apt-get install Python3-pip的作用是使用apt-get命令安装Python3-pip工具包。最后输入Y确认执行命令,开始安装Python-pip。
提示
在Linux下安装软件都必须有root权限,可以直接转换成root用户安装,也可以在sudoers里添加特权用户和权限。
安装Python3-pip后,退出root用户环境,查看pip3版本,如图1-19所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P28_39264.jpg?sign=1734415539-pFg5d6Zz2688M9m8GzErcUJaAxpmE0En-0-3538a3d29bf6c0cedf96775495a4ce15)
图1-19 验证pip
最后还要将pip3的更新源改成国内源。根据pip的指南,在Linux下,pip的配置文件是$HOME/.pip/pip.conf,执行如下命令:
su – cd pwd mkdir .pip cd .pip cat > pip.conf << EOF [global] index-url = https://pypi.mirrors.ustc.edu.cn/simple #index-url = http://pypi.hustunique.com/simple #index-url = http://pypi.douban.com/simple EOF cat pip.conf exit
执行结果如图1-20所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P28_39263.jpg?sign=1734415539-AfKkrRlyAuUb8Uqsb8iHtqWLIquQgyqx-0-fbf88a7a73b55d98462707e9d8869800)
图1-20 修改pip.conf
提示
一般Windows中的配置文件后缀名为ini, Linux中相应文件的后缀名为conf。
一般用户和root用户都可以使用pip安装模块,这里只修改了root用户目录下的配置文件,也就是说只有root用户在使用pip命令时才会使用国内的pip源。而一般用户并没有修改pip的配置文件,使用的还是pip默认源。
下面验证一下修改源地址是否成功,执行如下命令:
su - python3 -m pip install --upgrade pip exit
执行结果如图1-21所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P29_39265.jpg?sign=1734415539-DPE99niK1wmgCJoPrvZNwuI4ZTaZxgtY-0-e45150f2a69bb548546776af5a2230f1)
图1-21 更新pip源
从图1-21可以看出,pip源已经开始起作用了。下面来测试一下pip,如图1-22所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P29_39266.jpg?sign=1734415539-V1Hzrd5JZ92x8tM23o59fhZ2PbCBID7p-0-d5a1dc87b0b1947d43e586171e159e32)
图1-22 测试pip
到此,pip已配置完毕。和Windows下的pip不同,Linux下的pip可以使用root用户来安装模块,也可以使用一般用户来安装模块。推荐使用root用户来安装,因为安装有些模块需要root特权,root用户安装的模块一般用户都可以使用。
1.2.5 永远的hello world
似乎所有的编程语言第一个程序都是hello world, Python也不能免俗。下面分别在Windows和Linux下创建hello.py。
1.在Windows下创建hello.py
步骤01 依次单击桌面左下角的“开始”|“所有程序”菜单选项,单击“Python 3.8”菜单,然后单击“IDLE”菜单,如图1-23所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P30_39267.jpg?sign=1734415539-Z7K7Az1rFri6msUsp10Kn4Nf2Pzygk5X-0-d0e63340f018b9712ebe5feb3569e771)
图1-23 打开IDLE
步骤02 此时打开的是Python Shell交互界面,依次单击“File|New File”菜单选项,如图1-24所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P30_39268.jpg?sign=1734415539-7NixSqIyFzrc0qaYSRDDXTqePGsTtn46-0-5771d67c0d0debfa5d6f5d67df27f11e)
图1-24 打开IDE
步骤03 用IDLE的IDE打开一个新文件,在此新文件中编辑hello.py,如图1-25所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P30_39269.jpg?sign=1734415539-DqYEsn9HLB9n7PfriqkvNyROWzetskIC-0-33c671a607a2cebb1dae0377da3ebc40)
图1-25 编辑hello.py
步骤04 单击该IDE的“File|Save As …”菜单,将已编辑好的代码保存,如图1-26所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P31_39272.jpg?sign=1734415539-yeZ2EaZGCwNvx5AscdkbQMyes4bEXYz9-0-a7bd737fb4bb2a773189120d5d3a0c6b)
图1-26 保存代码
步骤05 选择保存文件的位置。这里选择保存到桌面,文件名为hello.py,如图1-27所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P31_39270.jpg?sign=1734415539-siapAejxzOTMf8U480KcLvXwyDiuzskP-0-fa3b24a31d9eacd0f7e47fee781dc339)
图1-27 选择保存文件的位置
步骤06 单击“保存”按钮,将hello.py保存到桌面。按住Shift键,同时右击桌面空白处,弹出一个快捷菜单,如图1-28所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P31_39271.jpg?sign=1734415539-Nhl7dDjD693d3vmY9QQwulxxrrBOXq1i-0-dd51a0f15eb558f20d20acb3d0898760)
图1-28 快捷菜单
步骤07 单击“在此处打开Powershell窗口”,启动命令行程序,执行如下命令:
python hello.py
执行结果如图1-29所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P32_39273.jpg?sign=1734415539-UiJaamzNgMizdhRNol4VJzpOEUASZh0E-0-3fb85283b1594c827b2992d13bedd32f)
图1-29 执行hello.py
提示
程序的第一行指定Python解释器的位置。在Windows中,这一行并没有实际意义,留下这一行是为了兼容Linux。第二行指定Python程序编码,在Python 3中,默认的字符编码就是UTF-8,因此这一行也没多大意义,是为了兼容Python 2而保留的。
至此,Windows下的hello.py执行完毕。
2.在Linux下创建hello.py
步骤01 使用Putty连接到Linux,执行如下命令:
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P32_2864.jpg?sign=1734415539-Ejyp45NXVJJvMEiA73RLWsczrGDAu12W-0-65cf32413448e9722b1e273ad9bae52c)
执行结果如图1-30所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P33_39275.jpg?sign=1734415539-IM538Ws7fJqTvuda0w8YIk6Xxk1r7uPE-0-4c8dd3d34717ff3c1740acd74ce7f59c)
图1-30 编辑hello.py
步骤02 然后在Putty中执行如下命令:
python hello.py
执行结果如图1-31所示。
![](https://epubservercos.yuewen.com/60895D/19549639601513806/epubprivate/OEBPS/Images/Figure-P33_39274.jpg?sign=1734415539-A7KCQGVd9pRHfGqWjyEjnj4GDuhFwshh-0-00c12e7886b78592fd7e4980a5377093)
图1-31 执行hello.py
提示
这是没有使用文本编辑工具编辑文档,使用的是cat命令。如果有条件,尽可能地使用文本编辑器,如vi。几乎所有的Linux版本都默认安装了vi文本编辑器。
因为在Windows中只安装了Python3,而在Linux中默认安装了Python2和Python3,所以在Windows中运行Python3的程序只需要执行命令Python program.py就可以了,而在Linux中运行Python3的程序则需要指明解释器的版本Python3,因此命令应该为Python3 program.py。
至此,在Linux下的hello.py执行完毕。在Python程序中有中文字符时需要注意,这里的例子能正常显示是因为当前系统默认支持UTF-8字符集,如果系统不支持UTF-8,就需要将中文字符用Encode转换成系统可识别的字符集。