上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
第2章 网络爬虫
“满面尘灰烟火色,两鬓苍苍十指黑。
卖炭得钱何所营?身上衣裳口中食。
可怜身上衣正单,心忧炭贱愿天寒。
夜来城外一尺雪,晓驾炭车辗冰辙。
牛困人饥日已高,市南门外泥中歇。
翩翩两骑来是谁?黄衣使者白衫儿。
手把文书口称敕,回车叱牛牵向北。
一车炭,千余斤,宫使驱将惜不得。
半匹红绡一丈绫,系向牛头充炭直。”
白居易《卖炭翁》
通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,所以搜索引擎首先面临的问题就是:如何能够设计出高效的下载系统,以将如此海量的网页数据传送到本地,在本地形成互联网网页的镜像备份。
网络爬虫即起此作用,它是搜索引擎系统中很关键也很基础的构件。本章主要介绍与网络爬虫相关的技术,尽管爬虫技术经过几十年的发展,从整体框架上已相对成熟,但随着互联网的不断发展,也面临着一些有挑战性的新问题。