图像分类 | 基于 Labelme 数据集和 VGG16 预训练模型实现迁移学习

Hi,大家好,我是源于花海。本文主要使用数据标注工具 Labelme 对自行车(bike)和摩托车(motorcycle)这两种训练样本进行标注,使用预训练模型 VGG16 作为卷积基,并在其之上添加了全连接层。基于标注样本的信息和预训练模型的特征提取能力,训练自己构建的图像分类器,从而实现迁移学习


目录

一、导入必要库

二、定义目录变量

三、数据预处理--数据增强 + 标签处理

1. 定义图像数据生成器

2. 标注样本的数据说明

四、导入预训练网络--VGG16

五、模型构建

六、模型训练

七、可视化训练过程

八、模型预测


一、导入必要库

导入必要的库(os、json、numpy、matplotlib.pyplot 等,详见如下),设置相关配置(警告和字体),为后续的图像处理和深度学习任务做准备。

  • os: 用于与操作系统进行交互,例如文件路径操作等。
  • json: 处理JSON格式的数据。
  • numpy: 提供对多维数组进行操作的功能。
  • matplotlib.pyplot: 用于绘制图表和可视化。
  • keras.preprocessing.image: 包含用于图像处理的工具,如ImageDataGenerator。
  • keras.applications: 包含一些预训练的深度学习模型,这里导入VGG16。
  • keras.layers、keras.models、keras.optimizers: 用于构建深度学习模型的Keras组件。
  • PIL.Image: Python Imaging Library,用于图像处理。
  • warnings: 用于忽略警告信息。
import os
import json
import numpy as np
import matplotlib.pyplot as plt
from keras.preprocessing.image import ImageDataGenerator, load_img, img_to_array
from keras.applications import VGG16
from keras import layers, models, optimizers
from PIL import Image
import warnings# 忽略警告信息
warnings.filterwarnings("ignore")
# 设置中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']  # 设置黑体样式
plt.rcParams['axes.unicode_minus'] = False  # 正常显示负号

二、定义目录变量

首先定义基本目录和获取当前工作目录,设置训练集和验证集的文件夹路径,通过 "os.path.join" 连接各个目录,使用 "os.path.normpath" 规范化路径格式。构建包含训练和验证图像标签的 JSON 文件的目录。

通过定义相关目录和路径来指定训练集、验证集以及图像标签的存储位置,为后续的数据加载和训练做准备。

数据集一共有近 500 张图像,使用 split.py 脚本划分数据集,规定比例为训练集 72%,验证集 18%,测试集 10% 

# 定义基本目录和获取当前工作目录
base_dir = r'dataset'
current_dir = os.getcwd()# 设置训练集和验证集的文件夹路径
train_dir = os.path.normpath(os.path.join(current_dir, base_dir, 'images', 'train'))
validation_dir = os.path.normpath(os.path.join(current_dir, base_dir, 'images', 'val'))# 构建到包含训练和验证图像标签的 JSON 文件的目录
train_labels_dir = os.path.normpath(os.path.join(current_dir, base_dir, 'json'))
validation_labels_dir = os.path.normpath(os.path.join(current_dir, base_dir, 'json'))

三、数据预处理--数据增强 + 标签处理

1. 定义图像数据生成器

定义了一个实时数据增强的生成器函数,该函数通过随机应用多种变换来实现图像数据的动态增强,同时提供了对应的标签信息,大大提高了模型的泛化能力。

  • 设置ImageDataGenerator:创建了一个 ImageDataGenerator 对象,用于实施数据增强。设置了多种数据增强的参数,如像素值缩放、随机旋转、水平/垂直平移、剪切、随机缩放和水平翻转。
  • 读取并处理标签信息:构建一个字典 labels_dict,用于存储图像文件名和对应的标签类别。通过读取 JSON 文件中的标签信息,将图像文件名与类别建立映射。
图像种类bike(自行车)motorcycle(摩托车)
标签量化01
  • 生成器主体部分:
    • 获取图像文件列表,然后进入一个无限循环,每次循环生成一个批次的图像数据和对应的标签。
    • 从图像文件列表中随机选择一个批次的图像索引,并加载图像,进行预处理,然后将其添加到批次列表中。
    • 加载对应的标签,并将图像数据和标签作为批次的一部分返回。这是一个无限循环,可用于 Keras 模型的 fit_generator 函数进行模型训练。
# 实时数据增强--提高模型的泛化能力
def data_generator(directory, labels_directory, batch_size, target_size):ImageDataGenerator(rescale=1. / 255,  # 像素值缩放到 [0, 1] 之间rotation_range=40,  # 随机旋转角度范围width_shift_range=0.2,  # 水平平移范围height_shift_range=0.2,  # 垂直平移范围shear_range=0.2,  # 剪切强度zoom_range=0.2,  # 随机缩放范围horizontal_flip=True,  # 随机水平翻转fill_mode='nearest'  # 使用最近邻插值来填充新创建的像素)# 用于存储图像文件名和对应标签类别的映射labels_dict = {}# 读取标签信息并建立映射for json_file in os.listdir(labels_directory):if json_file.endswith('.json'):  # 确保文件是 JSON 格式的文件with open(os.path.join(labels_directory, json_file)) as f:  # 打开 JSON 文件json_data = json.load(f)  # 加载 JSON 数据# 处理 JSON 数据label = 1 if json_data["shapes"][0]["label"] == "motorcycle" else 0  # 根据标签信息确定类别(二分类--0/1)img_filename = os.path.basename(json_data["imagePath"])  # 获取图像文件名labels_dict[img_filename] = label  # 将图像文件名和对应标签类别存储在字典中image_list = [img for img in os.listdir(directory) if img.endswith('.png')]  # 获取图像文件列表while True:# 从图像文件列表中随机选择一个批次的图像索引batch_indices = np.random.choice(len(image_list), batch_size)batch_x = []  # 存储当前批次的图像数据batch_y = []  # 存储当前批次的类别数据for index in batch_indices:img_filename = image_list[index]  # 获取图像文件名# 加载并预处理图像img_path = os.path.join(directory, img_filename)  # 构建图像路径img = load_img(img_path, target_size=target_size)  # 加载并调整图像大小img_array = img_to_array(img)  # 将图像转换为 NumPy 数组img_array = img_array / 255.0  # 将像素值缩放到 [0, 1] 之间batch_x.append(img_array)  # 将图像数据添加到批次列表中# 加载标签batch_y.append(labels_dict[img_filename])  # 将对应的标签添加到批次标签列表中# 将批次的图像和标签转换为 NumPy 数组并返回作为生成器的一部分yield np.array(batch_x), np.array(batch_y)

2. 标注样本的数据说明

从指定的数据集中读取图像文件的标签信息,筛选并输出指定标签类别的图像文件名和对应的标签类别,并展示其中一部分标注信息。

  • 函数参数: def get_labels(dataset_path, json_path, target_label, num_show=5):
    • dataset_path:数据集的路径,包含图像文件。
    • json_path:存储与图像文件对应标签信息的 JSON 文件的路径。
    • target_label:目标标签类别,用于筛选图像。
    • num_show:要显示的图像数量,默认为 5。
  • 初始化一个列表,用于存储图像文件名和对应标签类别: image_labels = []
  • 遍历数据集中的图像文件:
    • 对数据集中的每个图像文件进行遍历。
    • 构建与图像文件对应的 JSON 文件路径,读取 JSON 文件,并获取标签信息。
    • 如果标签与目标标签一致,将图像文件名和对应标签类别添加到 image_labels 列表中。
  • 输出图像文件名和对应标签类别: 设置数据集和 JSON 文件路径,调用 get_labels 函数,只展示每种图像的前五张和后五张的标注信息。
def get_labels(dataset_path, json_path, target_label, num_show=5):# 初始化一个列表,用于存储图像文件名和对应标签类别image_labels = []# 遍历数据集中的图像文件for image_file in os.listdir(dataset_path):if image_file.endswith('.png'):# 构建与图像文件对应的JSON文件路径json_file_path = os.path.join(json_path, image_file.replace('.png', '.json'))# 读取JSON文件,获取标签信息with open(json_file_path) as f:json_data = json.load(f)label = json_data["shapes"][0]["label"]# 将图像文件名和对应标签类别存储在列表中if label == target_label:image_labels.append((image_file, label))# 输出图像文件名和对应标签类别print(f"{target_label}的图像文件名和对应标签类别:")total_images = len(image_labels)for i, (image_file, label) in enumerate(image_labels[:num_show]):print(f"文件名: {image_file}, 标签类别: {label}")if total_images > num_show * 2:print("......")for i, (image_file, label) in enumerate(image_labels[-num_show:]):print(f"文件名: {image_file}, 标签类别: {label}")# 数据集和JSON文件路径
dataset_path = './dataset/PNGImages'
json_path = './dataset/json'
# 输出bike和输出motorcycle的图像文件名和标签类别
get_labels(dataset_path, json_path, 'bike')
get_labels(dataset_path, json_path, 'motorcycle')

四、导入预训练网络--VGG16

VGG16 卷积神经网络 —— 13 层卷积层和 5 层池化层 负责进行特征的提取,最后的 3 层全连接层 负责完成分类任务。

VGG16 的卷积核:(每层卷积的滑动步长 stride=1,padding=1)

  • conv3-xxx: 卷积层均为 3×3 的卷积核,xxx表示通道数。其步长为 1,用 padding=same 填充;
  • input: 输入图片大小为 224×244 的彩色图像,通道为3(RGB image),即 224×224×3;
  • maxpool: 最大池化,在 VGG16 中,pooling 采用的是 2×2 的最大池化方法;
  • FC-4096: 全连接层中有 4096 个节点,同样地,FC-1000 为该层全连接层有 1000 个节点;
  • padding: 对矩阵在外边填充 n 圈,padding=1 即填充 1 圈,5×5 大小的矩阵,填充一圈后变成 7X7 大小;

因 VGG16 网络用于 1000 分类,而该任务只是二分类,故需修改 VGG16 网络的全连接层,同时冻结原网络的特征提取层(卷积层和池化层的权重保持不变),防止权重更新而破坏预训练权重,减少训练时间和计算资源。

使用 Keras 中的 VGG16 模型实例作为卷积基础(conv_base),并使用 ImageNet 上的预训练权重,通过将卷积层设为不可训练,可以在此基础上构建自定义的全连接网络,从而适应特定的图像分类任务,而无需重新训练 VGG16 的卷积层。

conv_base = VGG16(include_top=False,  # 不包含顶层的全连接网络weights='imagenet',  # 使用 ImageNet 数据集上的预训练权重input_shape=(150, 150, 3))  # 输入图像的形状为 150x150 像素,RGB 三通道
conv_base.trainable = False  # 冻结 VGG16 的卷积层,使之不被更新conv_base.summary()  # 显示VGG16模型的摘要

五、模型构建

构建了一个顺序模型(Sequential Model),使用了预训练的 VGG16 模型作为卷积基础,添加了全连接层来适应特定的图像分类任务。

  • 输出层使用 sigmoid 激活函数(适用于二分类)
  • 使用 binary_crossentropy 二分类交叉熵作为损失函数。
  • 使用 RMSprop 优化器,学习率为 2e-5。
model = models.Sequential()  # 创建顺序模型
model.add(conv_base)  # 将预训练的 VGG16 模型添加到顺序模型中
model.add(layers.Flatten())  # 将卷积层输出的多维数据展平成一维
model.add(layers.Dense(256, activation='relu'))  # 256个神经元的全连接层,ReLU 激活函数
model.add(layers.Dense(1, activation='sigmoid'))  # 1个神经元的输出层,sigmoid 激活函数,进行二分类
# model = VGG16()
model.summary()  # 输出模型的结构摘要model.compile(loss='binary_crossentropy',  # 使用二分类交叉熵作为损失函数optimizer=optimizers.RMSprop(lr=2e-5),  # 使用 RMSprop 优化器,学习率为 2e-5metrics=['acc'])  # 监控模型的准确率

六、模型训练

设置数据生成器的批处理和图像大小,设定训练 25 次,观察训练过程及其训练集和验证集的准确率、损失率。

# 模型训练的参数准备
batch_size = 20  # 设置数据生成器的批处理大小
target_size = (150, 150)  # 设置将图像调整大小为 (150, 150) 的目标大小history = model.fit(data_generator(train_dir, train_labels_dir, batch_size, target_size),  # 使用自定义数据生成器产生训练数据steps_per_epoch=len(os.listdir(train_dir)) // batch_size,  # 每个 epoch 中迭代的步数epochs=25,  # 训练的总 epoch 数validation_data=data_generator(validation_dir, validation_labels_dir, batch_size, target_size),# 使用自定义数据生成器产生验证数据validation_steps=len(os.listdir(validation_dir)) // batch_size
)

七、可视化训练过程

经过 25 轮的训练后,基于下方的 "loss/acc" 的可视化图,可以看出训练集和验证集的准确率稳定地高达 100%训练集的损失率最低能达到 0.55%,验证集的损失率最低能达到 0.95%,可见该模型的训练效果非常好

train_acc = history.history['acc']
train_loss = history.history['loss']
val_acc = history.history['val_acc']
val_loss = history.history['val_loss']epoch = range(1, len(train_acc) + 1)plt.figure(figsize=(8, 5))
plt.plot(epoch, train_acc, color='green', label='train_acc')  # 训练集准确率
plt.plot(epoch, val_acc, color='blue', label='val_acc')  # 验证集准确率
plt.plot(epoch, train_loss, color='orange', label='train_loss')  # 训练集损失率
plt.plot(epoch, val_loss, color='red', label='val_loss')  # 验证集损失率
plt.title("VGG16 Model")plt.xlabel('Epochs', fontsize=12)
plt.ylabel('loss/acc', fontsize=12)
plt.legend(fontsize=11)
plt.ylim(0, 1)  # 设置纵坐标范围为0-1
plt.show()

八、模型预测

通过定义图像预测函数,读取测试集文件夹,以 25 个结果为一个批次,输出最终预测的结果。结果显示,测试集的 49 个图片都能被准确地预测出来

# 定义单张图像的预测函数
def predict_image(model, image_path, target_size):img = Image.open(image_path)  # 打开图像文件img = img.resize(target_size)  # 调整图像大小img_array = img_to_array(img)  # 将图像转换为数组img_array = img_array / 255.0  # 对图像进行归一化处理img_array = img_array.reshape((1,) + img_array.shape)  # 将图像数组形状调整为符合模型输入要求# 使用模型进行图像预测prediction = model.predict(img_array)[0, 0]return prediction# 定义显示一组图像及其结果的函数
def display_images_with_results(image_paths, predictions):plt.figure(figsize=(15, 10))for i, (image_path, prediction) in enumerate(zip(image_paths, predictions), 1):plt.subplot(5, 5, i)  # 调整子图显示img = Image.open(image_path)  # 打开图像文件# 根据预测概率确定预测类别predicted_class = "motorcycle" if prediction > 0.5 else "bike"plt.imshow(img)  # 显示图像plt.title(f"文件名: {os.path.basename(image_path)}\n预测类别: {predicted_class}")plt.axis('off')plt.tight_layout()plt.show()# 设置测试集文件夹路径
test_dir = os.path.normpath(os.path.join(current_dir, base_dir, 'images', 'test'))
# 初始化空列表,用于存储每组25个结果的信息
batch_image_paths, batch_predictions, batch_actual_labels = [], [], []# 循环遍历测试文件夹中的图像文件
for i, image_file in enumerate(os.listdir(test_dir), 1):if image_file.endswith('.png'):image_path = os.path.join(test_dir, image_file)  # 构建图像文件的完整路径# 使用定义的图像预测函数进行预测prediction = predict_image(model, image_path, target_size)# 将结果添加到当前批次中batch_image_paths.append(image_path)batch_predictions.append(prediction)# 如果达到每组25个结果,调用显示函数并清空当前批次信息if i % 25 == 0:display_images_with_results(batch_image_paths, batch_predictions)batch_image_paths, batch_predictions = [], []# 如果还有剩余结果不足25个,调用显示函数
if batch_image_paths:display_images_with_results(batch_image_paths, batch_predictions)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/239918.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

el-date-picker组件设置时间范围限制

需求: 如图所示,下图为新增的一个弹层页面,同时有个需求,日期选择需要限制一个月的时间范围(一月默认为30天): 查看官方文档我们需要主要使用到如下表格的一些东西: 参数说明类型可…

FFmpeg之SWScale

文章目录 一、概述二、函数调用结构图三、Libswscale处理数据流程四、重要结构体4.1、SwsContext4.2、SwsFilter 五、重要函数5.1、sws_getContext5.1.1、sws_alloc_context5.1.2、sws_init_context 5.2、sws_scale5.2.1、SwsContext中的swscale()5.2.2、check_image_pointers5…

8个Python必备的PyCharm插件

大家好,在PyCharm中浏览插件列表并尝试很多人推荐的插件后,总结了几个瑰宝插件,它们各自以独特的方式帮助开发者快速、简便、愉悦地开发,接下来将逐个介绍它们。 1. Key Promoter X 【下载链接】:https://plugins.je…

【Python数据可视化】matplotlib之增加图形内容:设置图例、设置中文标题、设置网格效果

文章传送门 Python 数据可视化matplotlib之绘制常用图形:折线图、柱状图(条形图)、饼图和直方图matplotlib之设置坐标:添加坐标轴名字、设置坐标范围、设置主次刻度、坐标轴文字旋转并标出坐标值matplotlib之增加图形内容&#x…

Vue3+ElementPlus实例_select选择器(不连续搜索)

1.开发需求 在各大UI框架的select选择器中,在搜索时都是输入连续的搜索内容,比如“app-store”选项,你要输入“app-xxx”,才能匹配这个选择,要是想输入“a-s”这种不连续的匹配方式,就实现不了&#xff0c…

电脑安装 Python提示“api-ms-win-crt-process-l1-1-0.dll文件丢失,程序无法启动”,快速修复方法,完美解决

在windows 10系统安装完python后,启动的时候,Windows会弹出错误提示框“无法启动此程序,因为计算机中丢失了api-ms-win-crt-process-l1-1-0.dll,尝试重新安装该程序以解决此问题。” api-ms-win-crt-process-l1-1-0.dll是一个动态…

软件架构之事件驱动架构

一、定义 事件驱动的架构是围绕事件的发布、捕获、处理和存储(或持久化)而构建的集成模型。 某个应用或服务执行一项操作或经历另一个应用或服务可能想知道的更改时,就会发布一个事件(也就是对该操作或更改的记录)&am…

新增PostgreSQL数据库管理功能,1Panel开源面板v1.9.3发布

2024年1月15日,现代化、开源的Linux服务器运维管理面板1Panel正式发布v1.9.3版本。 在这一版本中,1Panel新增了PostgreSQL数据库管理功能,并且支持设置PHP运行环境扩展模版。此外,我们进行了30多项功能更新和问题修复。1Panel应用…

IDEA 2022.3.3 安装教程

1.下载2022.3.3版本IDEA 链接:https://pan.baidu.com/s/1z-Yfl7fWHgqz8SQLn2-u0g?pwd949u 提取码:949u 2.安装 下载完成后,双击exe安装包, 点击next 3.选择方式3 4.将下面文件复制到任意位置(不要有中文路径&…

Java 使用 EasyExcel 爬取数据

一、爬取数据的基本思路 分析要爬取数据的来源 1. 查找数据来源:浏览器按 F12 或右键单击“检查”打开开发者工具查看数据获取时的请求地址 2. 查看接口信息:复制请求地址直接到浏览器地址栏输入看能不能取到数据 3. 推荐安装插件:FeHelper&a…

【Debian】非图形界面Debian10.0.0安装xfce和lxde桌面

一、安装 1. Debian10.0.0安装xfce桌面 sudo apt update sudo apt install xfce4 startxfce4 2. Debian10.0.0安装lxde桌面 sudo apt-get install lxde安装后重启电脑。 二、说明 XFCE、LXDE 和 GNOME 是三个流行的桌面环境,它们都是为类 Unix 操作系统设计…

JMeter笔记(三)

个人学习笔记(整理不易,有帮助点个赞) 笔记目录:学习笔记目录_pytest和unittest、airtest_weixin_42717928的博客-CSDN博客 目录 一:参数化方法 1)用户定义的变量 2)函数助手 3)…

【Rust学习】安装Rust环境

本笔记为了记录学习Rust过程,内容如有错误请大佬指教 使用IDE:vs code 参考教程:菜鸟教程链接: 菜鸟教程链接: Rust学习 Rust入门安装Rust编译环境Rust 编译工具 构建Rust 工程目录 Rust入门 安装Rust编译环境 因为我已经安装过VSCode了&am…

Mybatis基础---------增删查改

目录结构 增删改 1、新建工具类用来获取会话对象 import org.apache.ibatis.session.SqlSession; import org.apache.ibatis.session.SqlSessionFactory; import org.apache.ibatis.session.SqlSessionFactoryBuilder; import org.apache.ibatis.io.Resources;import java.io…

【物联网】物联网设备和应用程序涉及协议的概述

物联网设备和应用程序涉及协议的概述。帮助澄清IoT层技术栈和头对头比较。 物联网涵盖了广泛的行业和用例,从单一受限制的设备扩展到大量跨平台部署嵌入式技术和实时连接的云系统。 将它们捆绑在一起是许多传统和新兴的通信协议,允许设备和服务器以新的…

Linux命令之pwd,cd,ls,cat,more,less,head,tail文件目录类命令的使用

一、实验题 1、在桌面打开终端,查看当前目录 2、改变目录位置至当前目录的父目录 3、改变目录位置至用户的家目录 4、利用绝对路径改变目录到/usr/local目录下 5、列出当前目录下的文件及目录 6、列出包括以“.”开始的隐藏文件在内的所有文件 7、列出当前目录下所…

C++学习笔记——用C++实现树(区别于C)

树是一种非常重要的数据结构,它在计算机科学中的应用非常广泛。在本篇博客中,我们将介绍树的基本概念和C中如何实现树。 目录 一、树的基本概念 2.C中实现树 2.1创建一个树的实例,并向其添加节点 2.2三种遍历方式的实现代码 3.与C语言相…

JVM知识总结(持续更新)

这里写目录标题 java内存区域程序计数器虚拟机栈本地方法栈堆方法区运行时常量池 对象的创建 java内存区域 Java 虚拟机在执行 Java 程序的过程中会把它管理的内存划分成若干个不同的数据区域: 程序计数器虚拟机栈本地方法栈堆方法区 程序计数器 记录下一条需要…

C语言——小细节和小知识9

一、大小端字节序 1、介绍 在计算机系统中,大小端(Endianness)是指多字节数据的存储和读取顺序。它是数据在内存中如何排列的问题,特别是与字节顺序相关。C语言中的数据存储大小端字节序指的是在内存中存储的多字节数据类型&…

Android 布局菜鸟 android中的布局类型和特点?

一、LinearLayout(线性布局) 1、 特点: 主要以水平或垂直方式来排列界面中的控件。并将控件排列到一条直线上。在线性布局中,如果水平排列,垂直方向上只能放一个控件,如果垂直排列,水平方向上也只能放一个控件。 2、适⽤场景: Android开发中最常见的 ⼀种布局⽅式,排列…