Python网络爬虫技术与应用
上QQ阅读APP看书,第一时间看更新

本书内容

本书全面系统地讲解Python网络爬虫的体系应用,由浅入深地介绍网络爬虫方面的技术知识,对基于Python网络爬虫领域的技术做全面的介绍。原理部分,主要突出网络爬虫的理论基础,原生态网络爬虫中正则表达式与requests库的使用,HTML内容解析模拟浏览器模拟登录模拟验证的应用,Python与数据库的连接与使用,网络爬虫框架的介绍与实际应用等。系统开发环境配置与搭建部分,通过实例系统讲解Python环境的安装、部署、环境搭建、配置、应用程序部署等一系列过程,帮助学生搭建Python开发环境。

网络爬虫技术的重点之一是网络爬虫框架,因此本书首先重点介绍网络爬虫的常见框架,再结合网络爬虫框架的相关案例介绍PySpider网络爬虫框架的安装和使用,Scrapy网络爬虫框架的安装和使用,以及Scrapy网络爬虫管理与部署。另外,因为Python网络爬虫开发需要reguests库、Scrapy解析库、存储库、XPath的配合,本书还介绍了requests库、正则表达式、XPath等的使用方法,重点讲解这些库的实际应用。

本书共分为7章,邓维负责全书的统稿工作,第1~4章由李贝编写,第5章到第6章由汤小洋编写,第7章由康毅斌、林海玉、刘燕秋、林建雄、刘庆胜、钟晓颖统一编写。

在Python网络爬虫的体系应用中,Scrapy与PySpide是非常重要的Python网络爬虫框架,读者通过学习,可以掌握Scrapy和PySpider的安装、配置和使用,以及实现基本的案例。

本书以Python网络爬虫开发为主线,兼顾理论与实战,全面介绍可操作的Python环境与系统开发相关知识,以及大数据算法、大数据分析、大数据系统互补的作用,可以互相参考。