上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
3.3 宫颈癌的危险因素(分类)
宫颈癌数据集包含预测女性是否会患宫颈癌的指标和危险因素。这些特征包括人口统计学数据(如年龄)、生活方式和病史。数据可从UCI 机器学习库下载,由Fernandes、Cardoso 和Fernandes 整理[14]。
本书使用的数据集的部分特征如下。
·年龄。
·性伴侣数量。
·首次性行为时间。
·怀孕次数。
·是否吸烟。
·烟龄。
·是否服用激素避孕药。
·服用激素避孕药的时间。
·是否有IUD (宫内节育器)。
·使用IUD 时间。
·是否患有STD (性传播疾病)。
·STD 诊断次数。
·STD 次数。
·首次STD 诊断至今时间。
·上次STD 诊断至今时间。
·活检结果,即癌症概率。概率为0 表示“健康”,概率为1 表示“癌症”。这是目标输出。
活检结果作为判断是否患癌症的最终结果。对于本书中的例子,活检结果被用作目标。
数据中每列的默认值都是由众数(最常见的值)代替的,这可能并非是一个好办法,因为真正的答案可能与某个值缺失的概率相关。该数据可能会有偏差,因为这些问题是非常私人的。但这并不是一本关于缺失数据插补的书,所以必须认为众数插补足以作为回归分析来使用。
要使用该数据集重现本书的示例,请在本书的GitHub 存储库中找到预处理的R脚本和最终的RData 文件。