更新时间:2018-12-29 14:25:31
封面
版权信息
前 言
第1章 数据挖掘和Clementine概述
1.1 数据挖掘的产生背景
1.1.1 海量数据的分析需求催生数据挖掘
1.1.2 应用对理论的挑战催生数据挖掘
1.2 什么是数据挖掘
1.2.1 数据挖掘的概念
1.2.2 数据挖掘能做什么
1.2.3 数据挖掘得到的知识形式
1.2.4 数据挖掘的算法分类
1.3 Clementine软件概述
1.3.1 Clementine的窗口
1.3.2 数据流的基本管理和执行
1.3.3 数据流的其他管理
1.3.4 从一个示例看Clementine的使用
第2章Clementine数据的读入
2.1 变量的类型
2.1.1 从数据挖掘角度看变量类型
2.1.2 从数据存储角度看变量类型
2.2 读 入 数 据
2.2.1 读自由格式的文本文件
2.2.2 读Excel电子表格数据
2.2.3 读SPSS格式文件
2.2.4 读数据库文件
2.3 生成实验方案数据
2.4 合 并 数 据
2.4.1 数据的纵向合并
2.4.2 数据的横向合并
第4章Clementine样本的管理
4.1 样本的排序
4.2 样本的条件筛选
4.3 样本的随机抽样
4.4 样本的浓缩处理
4.5 样本的分类汇总
4.6 样本的平衡处理
4.7 样本的其他管理
4.7.1 数据转置
4.7.2 数据的重新组织
第5章Clementine数据的基本分析
5.1 数据质量的探索
5.1.1 数据的基本描述与质量探索
5.1.2 离群点和极端值的修正
5.1.3 缺失值的替补
5.1.4 数据质量管理的其他功能
5.2 基本描述分析
5.2.1 计算基本描述统计量
5.2.2 绘制散点图
5.3 变量分布的探索
5.4 两分类变量相关性的研究
5.4.1 两分类变量相关性的图形分析
5.4.2 两分类变量相关性的数值分析
5.5 两总体的均值比较
5.5.1 两总体均值比较的图形分析
5.5.2 独立样本的均值检验
5.5.3 配对样本的均值检验
5.6 变量重要性的分析
5.6.1 变量重要性分析的一般方法
5.6.2 变量重要性分析的应用示例
第6章 分类预测:Clementine的决策树
6.1 决策树算法概述
6.1.1 什么是决策树
6.1.2 决策树的几何理解
6.1.3 决策树的核心问题
6.2 Clementine的C5.0算法及应用
6.2.1 信息熵和信息增益
6.2.2 C5.0的决策树生长算法
6.2.3 C5.0的剪枝算法
6.2.4 C5.0的推理规则集
6.2.5 C5.0的基本应用示例
6.2.6 C5.0的损失矩阵和Boosting技术
6.2.7 C5.0的模型评价
6.2.8 C5.0的其他话题:推理规则、交叉验证和未剪枝的决策树
6.3 Clementine的分类回归树及应用
6.3.1 分类回归树的生长过程
6.3.2 分类回归树的剪枝过程
6.3.3 损失矩阵对分类树的影响
6.3.4 分类回归树的基本应用示例
6.3.5 分类回归树的交互建模
6.3.6 分类回归树的模型评价
6.4 Clementine的CHAID算法及应用
6.4.1 CHAID分组变量的预处理和选择策略
6.4.2 Exhaustive CHAID算法
6.4.3 CHAID的剪枝
6.4.4 CHAID的应用示例
6.5 Clementine的QUEST算法及应用
6.5.1 QUEST算法确定最佳分组变量和分割点的方法
6.5.2 QUEST算法的应用示例
6.6 决策树算法评估的图形比较
6.6.1 不同模型的误差对比
6.6.2 不同模型收益的对比
第7章 分类预测:Clementine的人工神经网络
7.1 人工神经网络算法概述
7.1.1 人工神经网络的概念和种类
7.1.2 人工神经网络中的节点和意义
7.1.3 人工神经网络建立的一般步骤
7.2 Clementine的B-P反向传播网络
7.2.1 感知机模型
7.2.2 B-P反向传播网络的特点