更新时间:2024-04-23 17:44:15
封面
版权信息
内容提要
前言
单元1 大数据分析概述
学习目标
相关知识
1.大数据分析的概念
2.大数据分析的发展过程
3.大数据分析的应用场景
4.大数据分析流程
5.传统的统计分析软件
6.大数据分析编程语言
7.大数据可视化分析工具
任务实现
任务1.1 根据业务需求选择合适的大数据分析技术
任务1.2 使用pip和PyCharm完成Python库的管理
素养拓展
单元小结
课后习题
单元2 numpy科学计算基础
1.numpy与ndarray对象
2.创建ndarray数组的函数
3.numpy支持的数据类型
4.数组的矢量化运算
5.广播机制
6.数组与标量的算术运算
7.numpy通用函数
8.numpy数组的统计与排序方法
9.numpy的numpy.linalg模块
任务2.1 保存考试成绩——创建一个数组
任务2.2 查看考试成绩数据类型——查看数组元素的数据类型
任务2.3 对两门课成绩进行相加——实现数组运算
任务2.4 对考试成绩进行计算——使用numpy通用函数实现数组计算
任务2.5 对考试成绩进行统计与排序——利用numpy数组进行数据处理
任务2.6 对多门课成绩进行计算——使用numpy的线性代数模块处理矩阵
单元3 pandas统计分析基础
1.pandas与pandas的数据结构
2.创建Series和DataFrame的函数
3.索引与切片
4.排序算法与实现排序的方法
5.统计学与统计方法
任务3.1 用不同方式创建Series对象
任务3.2 用不同方式创建DataFrame
任务3.3 访问和提取随机数据——使用DataFrame进行索引与切片
任务3.4 对学生数据进行排序——实现数据排序
任务3.5 进行随机数据统计——实现数据统计
单元4 数据读取与写入
1.常用的数据文件类型
2.文本文件读取与写入
3.Excel文件读取与写入
4.数据库文件读取与写入
任务4.1 读取并存储城市经纬度数据——TXT文件读写
任务4.2 读取并存储招聘数据——CSV文件的读写
任务4.3 读取并存储用户数据——Excel文件的读写
任务4.4 读取商品类别数据并存储账户数据——MySQL读写
单元5 数据质量与数据清洗
1.企业数据管理现状
2.数据标准
3.数据质量的定义
4.常用的数据质量检测手段
5.数据质量管理的必要性
6.缺失值
7.重复值
8.异常值
任务5.1 医药销售数据遗漏检查——缺失值处理
任务5.2 医药销售数据去重校验——重复值处理
任务5.3 医药销售数据异常值排除——异常值处理
单元6 数据合并与数据转换
1.concat函数
2.append方法
3.merge函数
4.join方法
5.combine_first方法