更新时间:2019-11-22 18:45:53
封面
版权信息
内容简介
作者简介
前言
第1章 理解网络爬虫
1.1 爬虫的定义
1.2 爬虫的类型
1.3 爬虫的原理
1.4 爬虫的搜索策略
1.5 爬虫的合法性与开发流程
1.6 本章小结
第2章 爬虫开发基础
2.1 HTTP与HTTPS
2.2 请求头
2.3 Cookies
2.4 HTML
2.5 JavaScript
2.6 JSON
2.7 Ajax
2.8 本章小结
第3章 Chrome分析网站
3.1 Chrome开发工具
3.2 Elements标签
3.3 Network标签
3.4 分析QQ音乐
3.5 本章小结
第4章 Fiddler抓包
4.1 Fiddler介绍
4.2 Fiddler安装配置
4.3 Fiddler抓取手机应用
4.4 Toolbar工具栏
4.5 Web Session列表
4.6 View选项视图
4.7 Quickexec命令行
4.8 本章小结
第5章 爬虫库Urllib
5.1 Urllib简介
5.2 发送请求
5.3 复杂的请求
5.4 代理IP
5.5 使用Cookies
5.6 证书验证
5.7 数据处理
5.8 本章小结
第6章 爬虫库Requests
6.1 Requests简介及安装
6.2 请求方式
6.3 复杂的请求方式
6.4 下载与上传
6.5 本章小结
第7章 Requests-Cache爬虫缓存
7.1 简介及安装
7.2 在Requests中使用缓存
7.3 缓存的存储机制
7.4 本章小结
第8章 爬虫库Requests-HTML
8.1 简介及安装
8.2 请求方式
8.3 数据清洗
8.4 Ajax动态数据抓取
8.5 本章小结
第9章 网页操控与数据爬取
9.1 了解Selenium
9.2 安装Selenium
9.3 网页元素定位
9.4 网页元素操控
9.5 常用功能
9.6 实战:百度自动答题
9.7 本章小结
第10章 手机App数据爬取
10.1 Appium简介及原理
10.2 搭建开发环境
10.3 连接Android系统
10.4 App的元素定位
10.5 App的元素操控
10.6 实战:淘宝商品采集
10.7 本章小结
第11章 Splash、Mitmproxy与Aiohttp
11.1 Splash动态数据抓取
11.2 Mitmproxy抓包
11.3 Aiohttp高并发抓取
11.4 本章小结
第12章 验证码识别
12.1 验证码的类型
12.2 OCR技术
12.3 第三方平台
12.4 本章小结
第13章 数据清洗
13.1 字符串操作
13.2 正则表达式
13.3 BeautifulSoup数据清洗
13.4 本章小结
第14章 文档数据存储
14.1 CSV数据的写入和读取
14.2 Excel数据的写入和读取
14.3 Word数据的写入和读取
14.4 本章小结
第15章 ORM框架
15.1 SQLAlchemy介绍与安装