TensorFlow+Android经典模型从理论到实战(微课视频版)
上QQ阅读APP看书,第一时间看更新

1.3 花朵数据集

本项目采用Kaggle平台上提供的包含104种花朵的公共数据集,数据集文件采用TFRecord格式存放每一幅图像的id(样本唯一编号)、label(样本标签)和img(样本像素的数组表示)。数据集文件夹结构如图1.7所示。

图1.7 数据集文件夹结构

(1)train目录中包含16个∗.tfrec文件,存储训练集样本及其标签。

(2)val目录中包含16个∗.tfrec文件,存储验证集样本及其标签。验证集中的图片是根据标签分布按照比例抽取的,保证验证集的样本分布与标签分布一致。

(3)test目录中包含16个∗.tfrec文件,存储测试集样本,无标签。

(4)sample_submission.csv是提交预测结果的示例文件。

所有图像分辨率均为512×512像素,训练集、验证集、测试集的文件构成如表1.1所示。

表1.1 训练集、验证集、测试集的文件构成

从训练集中随机抽样16幅图像,图像效果及标签如图1.8所示。

图1.8 训练集中随机抽样的花朵及其标签示例

图像数据以TFRecord格式集中存储,虽然不如以单个图像文件存储直观,但是对于提高模型的训练效率很有帮助。为了解决观察数据的问题,后面专门编写了图像观察函数。