会员
实战Python网络爬虫
黄永祥更新时间:2019-11-22 18:45:53
最新章节:28.6 本章小结开会员,本书免费读 >
本书从原理到实践,循序渐进地讲述了使用Python开发网络爬虫的核心技术。全书从逻辑上可分为基础篇、实战篇和爬虫框架篇三部分。基础篇主要介绍了编写网络爬虫所需的基础知识,包括网站分析、数据抓取、数据清洗和数据入库。网站分析讲述如何使用Chrome和Fiddler抓包工具对网站做全面分析;数据抓取介绍了Python爬虫模块Urllib和Requests的基础知识;数据清洗主要介绍字符串操作、正则和BeautifulSoup的使用;数据入库讲述了MySQL和MongoDB的操作,通过ORM框架SQLAlchemy实现数据持久化,进行企业级开发。实战篇深入讲解了分布式爬虫、爬虫软件的开发、12306抢票程序和微博爬取等。框架篇主要讲述流行的爬虫框架Scrapy,并以Scrapy与Selenium、Splash、Redis结合的项目案例,让读者深层次了解Scrapy的使用。此外,本书还介绍了爬虫的上线部署、如何自己动手开发一款爬虫框架、反爬虫技术的解决方案等内容。本书使用Python3.X编写,技术先进,项目丰富,适合欲从事爬虫工程师和数据分析师岗位的初学者、大学生和研究生使用,也很适合有一些网络爬虫编写经验,但希望更加全面、深入理解Python爬虫的开发人员使用。
品牌:清华大学
上架时间:2019-06-01 00:00:00
出版社:清华大学出版社
本书数字版权由清华大学提供,并由其授权上海阅文信息技术有限公司制作发行
最新章节
黄永祥
主页
同类热门书
最新上架
- 会员
动手学数据结构与算法
本书系统介绍了数据结构与算法的基本概念和相关知识,既注重理论,又注重算法设计,更突出代码实现,是一本着眼于数据结构与基本算法的教学实践的教材。本书介绍了线性表、队列与栈、树与优先级队列、集合与静态查找表、动态查找表、排序、外部查找与排序、图、最小生成树与最短路径、算法设计思想等内容,将数据结构的理论与真实应用的实践紧密结合,从各种数据结构的代码实现到火车票管理系统的代码实现,手把手地指导读者学习数计算机15.5万字 - 会员
剑指大数据:企业级数据仓库项目实战(金融租赁版)
本书从需求规划、需求实现到可视化展示等,遵循项目开发的主要流程,全景介绍了金融租赁行业离线数据仓库的搭建过程。在整个数据仓库的搭建过程中,介绍了主要组件的安装部署、需求实现的具体思路、问题的解决方案等,并在其中穿插了许多大数据和数据仓库相关的理论知识,包括数据仓库的概念介绍、金融租赁业务概述、数据仓库理论介绍和数据仓库建模等。本书的第1章至第3章是项目前期准备阶段,主要为读者介绍了数据仓库的概念、计算机7.4万字 - 会员
64位汇编语言的编程艺术
本书源于作者的经典书籍TheArtofAssemblyLanguage,从32位汇编语言升级为64位汇编语言,基于Microsoft宏汇编程序(MASM)讲解x86-64CPU上汇编语言的编程艺术。本书从计算机的组成结构开始介绍,包括计算机数据表示和运算,以及内存的访问和组织等。之后详细讲解汇编语言程序设计,涉及过程和算术运算的相关知识,再通过低级控制结构过渡到高级主题,如表查找和位操作。计算机33.4万字 - 会员
Web 3中的零知识证明
基于当前Web3世界的快速发展,零知识证明在落地应用方面取得了快速进展。本书从技术原理和相关具体工程实现的角度对其进行介绍。本书第1章从总体上回顾了Web3的发展,以及当前的表现形态,第2章和第3章从最简洁的数学层面向读者介绍了零知识证明是什么,以及如何构建零知识证明。第4章从技术层面介绍了Web3世界中零知识证明的主流实现方案,第5章从应用层面介绍了零知识证明在Web3世界中的一些典型计算机21万字 - 会员
RISC-V体系结构编程与实践(第2版)
本书旨在介绍RISC-V体系结构的设计和实现。本书首先介绍RISC-V体系结构基础知识、实验环境搭建、基础指令集、函数调用规范与栈,然后讲解GNU汇编器、链接器与链接脚本、内嵌汇编代码,接着讨论RISC-V体系结构中的异常处理、中断处理与中断控制器、内存管理、高速缓存、缓存一致性、TLB管理、原子操作、内存屏障指令、合理使用内存屏障指令、与操作系统相关的内容、可伸缩矢量计算与优化,最后阐述RISC计算机26.2万字 - 会员
演进式架构(原书第2版)
本书提供了关于适应度函数、自动化架构治理和演进式数据的技术、知识和技巧。本书分为三个部分:第一部分包括定义演进式架构机制的章节——介绍团队如何使用技术和工具来构建适应度函数、部署管道以及其他管理和演进软件项目的机制;第二部分包括围绕耦合、复用和其他相关结构考虑因素的架构风格和设计原则,以帮助读者实现清晰的长期演进;第三部分探讨了第一部分中介绍的工程实践与第二部分中的结构考虑因素的交叉点。计算机12.8万字 - 会员
QPanda量子计算编程
本书介绍基于我国自主可控量子计算云平台的量子计算编程,涵盖量子计算的核心内容,包括量子计算的基本概念、多种量子算法及其应用,以及本源量子计算云平台和量子计算编程框架QPanda的使用方法。本书通过算法理论与编程实践相结合的方式,详细讲解算法与编程之间的紧密关系,并通过大量的示例和练习,帮助读者深入理解量子计算的概念和应用,从而逐步掌握量子计算编程技能。本书既适合量子计算领域的科研人员、工程技术人员计算机9.3万字 - 会员
人人都能开发RPA机器人:UiPath从入门到实战
本书为UiPath的入门工具书。第1~3章介绍RPA与UiPath的基础知识;第4~5章依次介绍流程自动化基础知识与流程搭建的方法论,建议没有相关技术背景的读者详细阅读;第6~8章是UiPath流程开发的关键章,建议读者通读并跟练,便于加深记忆,熟练掌握相关知识,其中的关键知识可以根据章节索引,在实际开发时按需查阅;第9~10章介绍更深层次的云UiPathOrchestrator和机器人企业框架计算机11.2万字 - 会员
快人一步:系统性能提高之道
运行速度慢的系统常常令人沮丧。它们会浪费用户的时间和金钱,甚至可能会扼杀项目,危及相关从业人员的职业生涯。本书主要面向那些对计算机程序和其他程序消耗时间情况以及改进这种情况的方法感兴趣的人,作者以一种清晰且值得思考的方式解释了为什么系统会这样运行,并融合亲身经历,用讲故事的方式分享了自己作为程序性能咨询顾问的经验,教大家如何改进系统。他不仅教读者性能优化方面的技能,还引导读者使用新的思维方式,更稳计算机10.3万字
同类书籍最近更新
- 会员
算法设计与分析:基于C++编程语言的描述
本书注重理论与实践紧密结合,系统介绍算法设计方法、分析技巧和C++编程实战。作者本着“易理解,重实用”的指导思想,结合多年的教学经验,以算法设计策略为主线,沿着“算法思想—算法设计—构造实例—算法描述—算法分析—C++实战”的思路组织学习内容,共包括算法及基础知识、贪心法、分治法、动态规划、搜索法、随机化算法、线性规划问题与网络流、数论算法及计算几何算法和NP完全理论等9章内容。程序设计16.9万字 软件开发中的决策:权衡与取舍
本书详细阐述如何在设计、规划和实现软件时做出更好的决策,通过真实的案例,以抽丝剥茧的方式分析那些失误的决策,探讨还有哪些可能的解决方案,并对比各种方案的优缺点,摸索软件设计的常青模式。本书通过实例来说明某些决策的后果,例如代码重复如何影响系统的耦合与演进速度,以及如何在日期和时间信息方面隐藏细微差别。本书还介绍如何根据帕累托法则有效地缩小优化范围,确保分布式系统的一致性。通过阅读本书,读者很快就可程序设计23.9万字