3.3.1 常用接口
常用的接口包含以下几类。
1)用于分类和聚类的接口:这些接口生成的样本特征向量矩阵以及对应的类别标签,根据样本所属的类别可以分为单标签和多标签。生成单标签分类和聚类数据的函数简介如表3-7所示。
表3-7 生成单标签分类和聚类数据的接口函数
2)用于多标签分类的接口:make_multilabel_classification生成多类多标签数据集,生成的数据集模拟了从很多话题的混合分布中抽取词袋模型,每个文档的话题数量符合泊松分布。话题本身从一个固定的随机分布中抽取出来,同样,单词数量也是泊松分布抽取,句子则是从多项式抽取。
3)用于双聚类的接口函数:make_biclusters生成具有恒定块对角线结构的数据;make_checkerboard生成具有用于双聚类的块棋盘结构的数据。
4)用于回归类型的接口函数:接口函数简介如表3-8所示。
表3-8 生成回归数据的接口函数
5)用于流行学习的接口函数:流形学习,全称流形学习方法(Manifold Learning),于2000年在《Science》中被首次提出,现已成为信息科学领域的研究热点。在理论和应用上,流形学习方法都具有重要的研究意义。假设数据是均匀采样于一个高维欧氏空间中的低维流形,流形学习就是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。从观测到的现象中去寻找事物的本质,进而找到产生数据的内在规律。生成流形学习数据的接口函数简介如表3-9所示。
表3-9 生成流行学习数据的接口函数
6)用于可降维的接口函数:生成可降维数据的接口函数简介如表3-10所示。
表3-10 生成可降维数据的接口函数
下面对scikit-learn dataset模块生成数据的常用接口做进一步介绍。更多详细介绍请参考官方文档[1]。
[1] https://scikit-learn.org/stable/datasets/