更新时间:2020-09-29 15:50:25
封面
版权信息
前言
第1章 网络爬虫概述与原理
1.1 网络爬虫简介
1.2 网络爬虫分类
1.3 网络爬虫流程
1.4 网络爬虫的采集策略
1.5 学习网络爬虫的建议
1.6 本章小结
第2章 网络爬虫涉及的Java基础知识
2.1 开发环境的搭建
2.2 基本数据类型
2.3 数组
2.4 条件判断与循环
2.5 集合
2.6 对象与类
2.7 String类
2.8 日期和时间处理
2.9 正则表达式
2.10 Maven工程的创建
2.11 log4j的使用
2.12 本章小结
第3章 HTTP协议基础与网络抓包
3.1 HTTP协议简介
3.2 URL
3.3 报文
3.4 HTTP请求方法
3.5 HTTP状态码
3.6 HTTP信息头
3.7 HTTP响应正文
3.8 网络抓包
3.9 本章小结
第4章 网页内容获取
4.1 Jsoup的使用
4.2 HttpClient的使用
4.3 URLConnection与HttpURLConnection
4.4 本章小结
第5章 网页内容解析
5.1 HTML解析
5.2 XML解析
5.3 JSON解析
5.4 本章小结
第6章 网络爬虫数据存储
6.1 输入流与输出流
6.2 Excel存储
6.3 MySQL数据存储
6.4 本章小结
第7章 网络爬虫实战项目
7.1 新闻数据采集
7.2 企业信息采集
7.3 股票信息采集
7.4 本章小结
第8章 Selenium的使用
8.1 Selenium简介
8.2 Java Selenium环境搭建
8.3 浏览器的操控
8.4 元素定位
8.5 模拟登录
8.6 动态加载JavaScript数据(操作滚动条)
8.7 隐藏浏览器
8.8 截取验证码
8.9 本章小结
第9章 网络爬虫开源框架
9.1 Crawler4j的使用
9.2 WebCollector的使用
9.3 WebMagic的使用
9.4 本章小结