上QQ阅读APP看书,第一时间看更新
1.4 本章习题
一、单选题
1.网络爬虫的基本流程是( )。
A.发送请求→获取响应内容→解析内容→保存数据
B.发送请求→解析内容→获取响应内容→保存数据
C.发送请求→获取响应内容→保存数据
D.发送请求→解析DNS →获取响应内容→保存数据
2.组织数据采集基本思想的第一步是( )。
A.组织数据库
B.网络爬虫编写
C.数据整理
D.采集目标源
3.以下选项中,( )不是爬行策略中的特征。
A.脚本语言
B.巨大的数据量
C.快速的更新频率
D.动态页面的产生
4.网络爬虫的系统框架中,( )不是主过程选择。
A.服务器
B.控制器
C.解析器
D.资源库
5.以下选项中,( )不是Python requests库提供的方法。
A.get()
B.push()
C.post()
D.head()
6.以下选项中,( )不是网络爬虫带来的负面问题。
A.法律风险
B.隐私泄露
C.商业利益
D.性能骚扰
7.如果一个网站的根目录下没有robots.txt文件,则以下说法中不正确的是( )。
A.网络爬虫应该以不对服务器造成性能骚扰的方式抓取内容
B.网络爬虫可以不受限制地抓取该网站内容并进行商业使用
C.网络爬虫可以肆意抓取该网站内容
D.网络爬虫的不当抓取行为仍然具有法律风险
二、简答题
1.什么是网络爬虫?
2.简述网络爬虫的基本流程。
3.列举三种网络爬虫策略,并简单说明原理。
4.列举三种常见反网络爬虫技术,并简单说明。