Python数据预处理技术与实践
上QQ阅读APP看书,第一时间看更新

3.7 本章小结

本章介绍了结构化、半结构化和非结构化数据及其数据的采集策略。面对非结构化网页信息,带领读者实现了页面分析和数据爬取,并把抓取的数据进行本地化存储。由于网络爬虫技术内容较多,本书篇幅有限,只是管中窥豹地介绍了网络爬虫技术与方法。下一章介绍文本信息抽取,即对采集的数据(包括DOC、PDF、HTML、Excel等)抽取文本信息。