上QQ阅读APP看书,第一时间看更新
1.1 爬虫
存在即合理,为什么爬虫程序会有其存在的土壤呢?这是由于传统低效率的数据收集手段越来越不能满足当今日益增长的数据需求所导致的。
这是一个数据爆炸的时代,没有了获取数据信息的壁垒,只要你肯,只要你想,那么就有机会利用数据让梦想走进现实。但是面对互联网这样一个由数据构建而成的海洋,如何有效获取数据,如何获取有效数据都是极其劳神费力、浪费成本、制约效率的事情。很多时候,按照传统手段完成一个项目可能80%~90%的时间用于获取和处理数据。这样的矛盾冲突,搁在以往,搁在普通的人和普通的公司身上,除了用金钱去填补(直接购买数据)之外,似乎只有默默认命了。
回想一下编者还是学生的时候,心里向往着诗和远方,但口袋空空。如果要去旅游,只能一遍一遍地去各个旅游网站上寻找最便宜的酒店、最便宜的机票和最便宜的餐馆。往往旅游只有三四天,可旅游之前竟然要花上十几天甚至几十天来搜索攻略、抢票和订酒店。
如果看这本书的读者,你曾经也有过这样的经历,那么请问你,酒店提前几天订最便宜?机票什么时候订最实惠?你知道酒店的价格一周都怎样变化吗?刷了那么久的票,你总结出了什么规律吗?那如果有人告诉你,他每15min就可以监控这个城市所有酒店的价格,你相信吗?你会疑惑吧,谁会有闲心每15min把某个城市所有酒店所有房间的价格全部看一遍呢?就算有这个闲心,可有这个速度吗?
然而现在,终于有了扭转之机,那就是驾驭爬虫,监控酒店的房价变化只是基本技能。