第三天
今天学习了不同的数据集加载方式、数据集常见操作和自定义数据集方法。
1.数据集加载。
以Mnist数据集为例。mindspore.dataset提供的接口仅支持解压后的数据文件,因此我们使用download库下载数据集并解压。
2.数据集迭代。
用create_tuple_iterator或create_dict_iterator接口创建数据迭代器,迭代访问数据,访问的数据类型默认为Tensor;若设置output_numpy=True,访问的数据类型为Numpy。
3.数据集常见操作:
3.1数据集随机shuffle可以消除数据排列造成的分布不均问题。
3.2map操作是数据预处理的关键操作,可以针对数据集指定列(column)添加数据变换(Transforms),将数据变换应用于该列数据的每个元素,并返回包含变换后元素的新数据集。
3.3将数据集打包为固定大小的batch是在有限硬件资源下使用梯度下降进行模型优化的折中方法,可以保证梯度下降的随机性和优化计算量。
4.自定义数据集
4.1可随机访问数据集
4.2可迭代数据集
4.2.1生成器