第2章
爬虫开发基础
2.1 HTTP与HTTPS
HTTP(Hyper Text Transfer Protocol,超文本传输协议)是一个客户端和服务器端请求和应答的标准(TCP)。客户端是终端用户,服务器端是网站。通过使用Web浏览器、网络爬虫或者其他工具,客户端发起一个到服务器上指定端口(默认端口为80)的HTTP请求,这个客户端叫用户代理(User Agent)。响应的服务器上存储着资源,比如HTML文件和图像,这个服务器为源服务器(Origin Server),在用户代理和服务器中间可能存在多个中间层,比如代理、网关或者隧道(Tunnels)。
通常,由HTTP客户端发起一个请求,建立一个到服务器指定端口(默认是80端口)的TCP连接,HTTP服务器则在那个端口监听客户端发送过来的请求,一旦收到请求,服务器(向客户端)发回一个状态行(比如"HTTP/1.1 200 OK")和(响应的)消息,消息的消息体可能是请求的文件、错误消息或者其他一些信息。
在浏览器的地址栏输入的网站地址叫作URL(Uniform Resource Locator,统一资源定位符)。就像每家每户都有一个门牌地址一样,每个网页也都有一个Internet地址。在浏览器的地址框中输入一个URL或单击一个超级URL时,URL就确定了要浏览的地址,向服务器发送一次请求,浏览器通过超文本传输协议(HTTP)传送到服务器,服务器根据请求头做出相应的响应,将响应数据返回到客户端,客户端收到响应内容后,通过浏览器翻译成网页。
HTTP协议传输的数据都是未加密的,也就是明文的数据,因此使用HTTP协议传输隐私信息非常不安全。为了保证这些隐私数据能加密传输,于是网景公司设计了SSL(Secure Sockets Layer)协议用于对HTTP协议传输的数据进行加密,从而诞生了HTTPS。
HTTPS(Hyper Text Transfer Protocol orer Secure Sokcket Layer,可以理解为HTTP+SSL/TLS)在传输数据之前需要客户端(浏览器)与服务端(网站)之间进行一次握手,在握手过程中将确立双方加密传输数据的密码信息。HTTP与HTTPS的主要区别可参考图2-1所示。
图2-1 HTTP与HTTPS的区别
HTTPS的SSL中使用了非对称加密、对称加密以及HASH算法。握手过程的简单描述如下:
(1)浏览器将自己支持的一套加密规则发送给网站。
(2)网站从中选出一组加密算法与HASH算法,并将自己的身份信息以证书的形式发回给浏览器。证书里面包含网站地址、加密公钥以及证书的颁发机构等信息。
(3)获得网站证书之后浏览器要做以下工作:
①验证证书的合法性(如颁发证书的机构是否合法、证书中包含的网站地址是否与正在访问的地址一致等),如果证书受信任,浏览器栏就会显示一个小锁头,否则会给出证书不受信任的提示。
②如果证书受信任或者用户接受了不受信任的证书,浏览器就会生成一串随机数的密码,并用证书中提供的公钥加密。
③使用约定好的HASH计算握手消息,并使用生成的随机数对消息进行加密,最后将之前生成的所有信息发送给网站。
(4)网站接收浏览器发来的数据之后要做以下操作:
①使用自己的私钥将信息解密并取出密码,使用密码解密浏览器发来的握手消息,并验证HASH是否与浏览器发来的一致。
②使用密码加密一段握手消息,发送给浏览器。
(5)如果浏览器解密并计算握手消息的HASH与服务端发来的HASH一致,此时握手过程结束,之后所有的通信数据将使用之前浏览器生成的随机密码,并利用对称加密算法进行加密。
浏览器与网站互相发送加密的握手消息并验证,目的是保证双方都获得一致的密码,并且可以正常地加密、解密数据,为真正数据的传输做一次测试。另外,HTTPS一般使用的加密与HASH算法如下。
(1)非对称加密算法:RSA、DSA/DSS。
(2)对称加密算法:AES、RC4、3DES。
(3)HASH算法:MD5、SHA1、SHA256。
其中,非对称加密算法用于在握手过程中加密生成的密码,对称加密算法用于对真正传输的数据进行加密,而HASH算法用于验证数据的完整性。由于浏览器生成的密码是整个数据加密的关键,因此在传输的时候使用非对称加密算法对其加密。非对称加密算法会生成公钥和私钥,公钥只能用于加密数据,可以随意传输,而网站的私钥用于对数据进行解密,所以网站都会非常小心地保管自己的私钥,防止泄漏。
SSL握手过程中有任何错误都会使加密连接断开,从而阻止隐私信息的传输,正是由于HTTPS非常安全,攻击者无法从中找到下手的地方,因此更多地采用假证书的手法来欺骗客户端,从而获取明文的信息。