AI源码解读:数字图像处理案例(Python版)
上QQ阅读APP看书,第一时间看更新
 AI源码解读.数字图像处理案例:Python版

4.3.1 数据预处理

本部分包括数据获取和数据处理。

1.数据获取

狗狗数据集下载地址为https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/v4-dataset/dogImages.zip,该数据集共有133个品种,几乎涵盖了常见的78个种类及相应的类别标签,共8351张图片,可用于目的式的种类识别。人脸数据集下载地址为https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/v4-dataset/lfw.zip,共有13234张图片。预训练模型来源:https://s3.cn-north-1.amazonaws.com.cn/static-documents/nd101/v4-dataset/lfw.zip,导入基于ImageNet数据集的预训练权重。ImageNet是目前非常流行的数据集,常被用来测试图像分类等计算机视觉任务相关的算法。包含1000万个URL,每个都链接到1000 categories(类别)中所对应的物体图像。输入一个图像,该ResNet-50模型会返回一个对图像中物体的预测结果。

以上数据需提前下载并和*.py文件保存在同一目录下。

2.数据处理

在该项目中使用了迁移学习的方法,其中预训练模型是VGG-16,输入图像的维度是224×224×3,将狗狗图片传入模型之前,需要将图片的维度变为224×224×3,其中第一个224代表图片对应的矩阵行数,第二个224代表矩阵列数,3代表通道数,因为使用的图片是RGB格式的彩色图片,所以通道数默认为3,无须修改。