实战Python网络爬虫
上QQ阅读APP看书,第一时间看更新

2.8 本章小结

本章主要介绍了与编写爬虫程序相关的Web前端开发技术。

前端开发技术是爬虫开发人员必备技能之一,也是编写爬虫程序的基础。前端技术的主要作用是分析各类网站的设计架构,以便有针对性地编写爬虫脚本。从整个爬虫开发周期来看,分析网站架构是最为耗时的一环,也是爬虫开发的核心之一,可以说,爬虫的开发都是基于网站的分析为前提。

关于前端开发技术,读者应重点掌握以下内容。

● HTTP与HTTPS:互联网上应用最为广泛的一种网络协议。目前所有网站开发都基于该协议,也是网站的实现原理。

● 请求头:基于HTTP与HTTPS协议实现,其作用是在通信之间实现信息传递。熟知各种请求类型,对爬虫中编写请求头有指导性作用。

● Cookies:存储在用户主机浏览器中的文本文件,主要让服务器识别各个用户身份信息。

● HTML:服务器返回的网页内容,一般由服务器后台生成。网站大部分数据来源于此,熟悉HTML布局和各个标签的作用,有利于数据抓取和清洗。

● JavaScript:主要实现网页的动态功能及用户交互。要懂得分析JavaScript代码,尤其是数据加密处理。

● JSON:表示一个JavaScript对象的信息,本质是一个特殊的字符串。

● Ajax:主要是前端数据加载和渲染技术,其响应内容大部分以JSON格式为主。