实战Python网络爬虫
上QQ阅读APP看书,第一时间看更新

3.5 本章小结

Chrome开发者工具的主要作用是进行Web开发调试,对于爬虫开发人员来说,应该熟练掌握Elements、Console和Network。其中Network是核心部分,百分之九十的网站分析都在Network上完成,读者对Network上的各个功能和作用要理解掌握,并懂得如何使用Chrome分析网站的请求信息。

一般分析网站最主要的是找到数据的来源,确定数据来源就能确定数据生成的具体方法。总结归纳分析网站的步骤如下:

(1)找出数据来源,大部分数据来源于Doc、XHR和JS标签。

(2)找到数据所在的请求,分析其请求链接、请求方式和请求参数。

(3)查找并确定请求参数来源。有时候某些请求参数是通过另外的请求生成的,比如请求A的参数id是通过请求B所生成的,那么要获取请求A的数据,就要先获取请求B的数据作为A的请求参数。

上述分析步骤适用于大部分网站,但每个网站都有自身的设计特点,不能一概而论。此方法更多的是起到指导性作用,遇到具体的问题还是要具体分析。