Scrapy网络爬虫开发实战
上QQ阅读APP看书,第一时间看更新

1.1.1 通用爬虫

目前通用网络爬虫的组织方式主要有网络综合爬虫和网络主题资源爬虫两种。其中网络综合爬虫能够广泛地采集各互联网站点资源,并对其进行页面搜索,将索引结果存入索引数据库,供网络用户检索,并且能够提供互联网网络资源地导航功能的工具,如Google、百度等。

Google、百度这样的公司需要大量的服务器和专业开发人员,运营开销大,如何在经济上可行就是一个问题。通用网络爬虫的主要收入是在搜索结果页中展示和用户输入的关键词相关的广告。条幅广告比关键词广告更早出现。按点击付费的关键词广告比条幅广告的收费额度低许多,点击一次广告可能只收几分钱,而条幅广告的计价单位至少在几百块。那些曾经被忽视的中小企业,一度被认为是游离在广告市场之外的客户,现在突然进入了互联网广告的生态系统。地球上最大的动物鲸鱼吃的是小鱼小虾,只有让更多的生物进入生态链,才能够产生庞大的顶级生物。

通用网络爬虫的企业是资本密集型企业,这样的公司往往前期有风险投资,有一定盈利后成为上市公司。