[保姆式教程]使用目标检测模型YOLO11 OBB进行旋转目标检测：训练自己的数据集（基于卫星和无人机的农业大棚数据集）

之前写了一个基于YOLOv8z做旋转目标检测的文章，内容写得不够好，内容也比较杂乱。现如今YOLO已经更新到11了，数据集也集齐了无人机和卫星的农业大棚，所以这次就写一个基于YOLO11 OBB的农业大棚旋转检测。

1. 下载源码配置环境

在https://github.com/ultralytics/ultralytics网页下载YOLO11源码，解压缩后创建虚拟环境即可，环境创建不是很难，这里就不细说了。

2. 数据集准备

2.1 数据标注

这里我使用LabelImg2标注无人机和卫星影像，我是在一整张大幅影像上对影像中的农业大棚进行标注的，最后面使用算法将影像裁剪成合适的尺寸用于训练，后面会详细介绍整个流程。

卫星影像中的农业大棚

无人机影像中的农业大棚

在LabelImg2上标注好数据，LabelImg2标注是五点式，即旋转框的中心x，y坐标、旋转框的长度和宽度、旋转角度。如下图所示：

影像大小为 7176 X 5080 ，影像为RGB3通道，标注了两个旋转框，旋转框标签为默认的"dog"

2.2 XML标注文件转DOTA格式标签文件（TXT）

新建一个名为roxml_to_dota.py的python脚本，复制粘贴下面的代码：

# 文件名称   ：roxml_to_dota.py
# 功能描述   ：把rolabelimg标注的xml文件转换成dota能识别的xml文件，
#             再转换成dota格式的txt文件
#            把旋转框 cx,cy,w,h,angle，或者矩形框cx,cy,w,h,转换成四点坐标x1,y1,x2,y2,x3,y3,x4,y4
import os
import xml.etree.ElementTree as ET
import mathcls_list = ['dog']  # 修改为自己的标签def edit_xml(xml_file, dotaxml_file):"""修改xml文件:param xml_file:xml文件的路径:return:"""# dxml_file = open(xml_file,encoding='gbk')# tree = ET.parse(dxml_file).getroot()tree = ET.parse(xml_file)objs = tree.findall('object')for ix, obj in enumerate(objs):x0 = ET.Element("x0")  # 创建节点y0 = ET.Element("y0")x1 = ET.Element("x1")y1 = ET.Element("y1")x2 = ET.Element("x2")y2 = ET.Element("y2")x3 = ET.Element("x3")y3 = ET.Element("y3")# obj_type = obj.find('bndbox')# type = obj_type.text# print(xml_file)if (obj.find('robndbox') == None):obj_bnd = obj.find('bndbox')obj_xmin = obj_bnd.find('xmin')obj_ymin = obj_bnd.find('ymin')obj_xmax = obj_bnd.find('xmax')obj_ymax = obj_bnd.find('ymax')# 以防有负值坐标xmin = max(float(obj_xmin.text), 0)ymin = max(float(obj_ymin.text), 0)xmax = max(float(obj_xmax.text), 0)ymax = max(float(obj_ymax.text), 0)obj_bnd.remove(obj_xmin)  # 删除节点obj_bnd.remove(obj_ymin)obj_bnd.remove(obj_xmax)obj_bnd.remove(obj_ymax)x0.text = str(xmin)y0.text = str(ymax)x1.text = str(xmax)y1.text = str(ymax)x2.text = str(xmax)y2.text = str(ymin)x3.text = str(xmin)y3.text = str(ymin)else:obj_bnd = obj.find('robndbox')obj_bnd.tag = 'bndbox'  # 修改节点名obj_cx = obj_bnd.find('cx')obj_cy = obj_bnd.find('cy')obj_w = obj_bnd.find('w')obj_h = obj_bnd.find('h')obj_angle = obj_bnd.find('angle')cx = float(obj_cx.text)cy = float(obj_cy.text)w = float(obj_w.text)h = float(obj_h.text)angle = float(obj_angle.text)obj_bnd.remove(obj_cx)  # 删除节点obj_bnd.remove(obj_cy)obj_bnd.remove(obj_w)obj_bnd.remove(obj_h)obj_bnd.remove(obj_angle)x0.text, y0.text = rotatePoint(cx, cy, cx - w / 2, cy - h / 2, -angle)x1.text, y1.text = rotatePoint(cx, cy, cx + w / 2, cy - h / 2, -angle)x2.text, y2.text = rotatePoint(cx, cy, cx + w / 2, cy + h / 2, -angle)x3.text, y3.text = rotatePoint(cx, cy, cx - w / 2, cy + h / 2, -angle)# obj.remove(obj_type)  # 删除节点obj_bnd.append(x0)  # 新增节点obj_bnd.append(y0)obj_bnd.append(x1)obj_bnd.append(y1)obj_bnd.append(x2)obj_bnd.append(y2)obj_bnd.append(x3)obj_bnd.append(y3)tree.write(dotaxml_file, method='xml', encoding='utf-8')  # 更新xml文件# 转换成四点坐标
def rotatePoint(xc, yc, xp, yp, theta):xoff = xp - xc;yoff = yp - yc;cosTheta = math.cos(theta)sinTheta = math.sin(theta)pResx = cosTheta * xoff + sinTheta * yoffpResy = - sinTheta * xoff + cosTheta * yoffreturn str(int(xc + pResx)), str(int(yc + pResy))def totxt(xml_path, out_path):# 想要生成的txt文件保存的路径，这里可以自己修改files = os.listdir(xml_path)i = 0for file in files:tree = ET.parse(xml_path + os.sep + file)root = tree.getroot()name = file.split('.')[0]output = out_path + '\\' + name + '.txt'file = open(output, 'w')i = i + 1objs = tree.findall('object')for obj in objs:cls = obj.find('name').textbox = obj.find('bndbox')x0 = int(float(box.find('x0').text))y0 = int(float(box.find('y0').text))x1 = int(float(box.find('x1').text))y1 = int(float(box.find('y1').text))x2 = int(float(box.find('x2').text))y2 = int(float(box.find('y2').text))x3 = int(float(box.find('x3').text))y3 = int(float(box.find('y3').text))if x0 < 0:x0 = 0if x1 < 0:x1 = 0if x2 < 0:x2 = 0if x3 < 0:x3 = 0if y0 < 0:y0 = 0if y1 < 0:y1 = 0if y2 < 0:y2 = 0if y3 < 0:y3 = 0for cls_index, cls_name in enumerate(cls_list):if cls == cls_name:file.write("{} {} {} {} {} {} {} {} {} {}\n".format(x0, y0, x1, y1, x2, y2, x3, y3, cls, cls_index))file.close()# print(output)print(i)if __name__ == '__main__':# -----**** 第一步：把xml文件统一转换成旋转框的xml文件 ****-----roxml_path = r'D:\data\yolov8_obb\origin_xml'  # labelimg2标注生成的原始xml文件路径dotaxml_path = r'D:\data\yolov8_obb\dota_xml'  # 转换后dota能识别的xml文件路径，路径需存在，不然报错out_path = r'D:\data\yolov8_obb\dota_txt'  # 转换后dota格式的txt文件路径，路径需存在，不然报错filelist = os.listdir(roxml_path)for file in filelist:edit_xml(os.path.join(roxml_path, file), os.path.join(dotaxml_path, file))# -----**** 第二步：把旋转框xml文件转换成txt格式 ****-----totxt(dotaxml_path, out_path)

注意事项：

【1】运行代码之前将cls_list = ['dog'] # 修改为自己的标签，不修改也不会报错，只是转换后的TXT中将没有任何数据

【2】小心修改文件路径，别搞错了，即

if __name__ == '__main__':# -----**** 第一步：把xml文件统一转换成旋转框的xml文件 ****-----roxml_path = r'D:\data\yolov8_obb\origin_xml'  # labelimg2标注生成的原始xml文件路径dotaxml_path = r'D:\data\yolov8_obb\dota_xml'  # 转换后dota能识别的xml文件路径，路径需存在，不然报错out_path = r'D:\data\yolov8_obb\dota_txt'  # 转换后dota格式的txt文件路径，路径需存在，不然报错filelist = os.listdir(roxml_path)for file in filelist:edit_xml(os.path.join(roxml_path, file), os.path.join(dotaxml_path, file))# -----**** 第二步：把旋转框xml文件转换成txt格式 ****-----totxt(dotaxml_path, out_path)

下面是转换后的TXT格式的标签文件（此时的标签还不是OBB数据集的格式，还需要再转换）

2.3 标签更改

我在标注的过程中使用的是LabelImg2软件中默认的标签名，即"dog"。在这里我使用代码将其中的标签修改为自己的标签，即"dp"。

新建一个名为change_label.py的python文件，复制粘贴下面的代码：

import osdef replace_text_in_files(folder_path, old_text, new_text):# 遍历指定文件夹for filename in os.listdir(folder_path):# 检查文件是否是.txt文件if filename.endswith(".txt"):file_path = os.path.join(folder_path, filename)# 读取文件内容with open(file_path, 'r', encoding='utf-8') as file:file_data = file.read()# 替换文本updated_data = file_data.replace(old_text, new_text)# 写入更改后的内容with open(file_path, 'w', encoding='utf-8') as file:file.write(updated_data)# 调用函数，将'dog'替换为'dp'
replace_text_in_files(r'D:\yolo11\greenhouse\roxml_to_dota\xml_to_txt', 'dog', 'dp')

下面是更改标签后的txtTXT文件内容：

2.4 DOTA格式标签文件转换为YOLO OBB训练所需的格式

（1）TIF格式影像转换为PNG格式

创建一个名为tif_to_png.py的python文件，复制粘贴下面的代码：

import os
import tifffile
from PIL import Image
import numpy as npdef tif2png_high_quality(tif_folder, png_folder):"""将tif文件夹中的所有tif图像转换为png图像，并尽可能保持图像质量。Args:tif_folder: 包含tif图像的文件夹路径。png_folder: 保存png图像的文件夹路径。"""if not os.path.exists(png_folder):os.makedirs(png_folder)for filename in os.listdir(tif_folder):if filename.endswith(".tif") or filename.endswith(".tiff"):tif_filepath = os.path.join(tif_folder, filename)png_filepath = os.path.join(png_folder, filename.replace(".tif", ".png").replace(".tiff", ".png"))try:# 使用tifffile库读取tif图像，可以更好地处理各种tif格式和元数据tif_image = tifffile.imread(tif_filepath)#  如果tif图像是多通道的，需要进行一些处理，例如转换为RGB图像或者分别保存每个通道if tif_image.ndim == 3 and tif_image.shape[2] > 3: #处理多波段图像，例如大于3个波段的遥感图像# 可以选择需要的波段合成RGB图像，或者保存所有波段为单独的png文件# 这里以合成RGB图像为例，假设前三个波段是RGB波段tif_image = tif_image[:,:,:3] # 取前三个波段tif_image = np.clip(tif_image, 0, 255).astype(np.uint8) # 裁剪像素值到0-255，并转换为uint8类型img = Image.fromarray(tif_image)elif tif_image.dtype == np.uint16: #16位图像处理，转换为8位img = Image.fromarray((tif_image / 256).astype(np.uint8))else: # 其他情况直接转换img = Image.fromarray(tif_image)# 使用 Pillow 库保存 png 图像, 可以指定更高的压缩质量img.save(png_filepath, "PNG", compress_level=1) # compress_level 1 表示最小压缩，质量最高print(f"已将 {tif_filepath} 转换为 {png_filepath}")except Exception as e:print(f"转换 {tif_filepath} 时出错: {e}")# 示例用法：
tif_folder = "tif_images"  # 替换为你的tif图像文件夹路径
png_folder = "png_images"  # 替换为你想保存png图像的文件夹路径
tif2png_high_quality(tif_folder, png_folder)

设置好图像文件夹路径，将TIF图像转换为PNG格式的图像

（2）在项目代码目录下面创建下面的文件夹结构，然后将划分好的图像和标签文件放到相应的文件夹中（这里我直接使用v8教程里面的图）

（3）编写转换标注格式的代码

创建一个名为convert_dota_to_yolo_obb.py的python文件，复制粘贴下面的代码：

import syssys.path.append('D:\yolo11')from ultralytics.data.converter import convert_dota_to_yolo_obbconvert_dota_to_yolo_obb('D:\yolo11\greenhouse\data')

由于官方源码转换代码用的是VOC数据集，所以这里我们需要修改ultralytics/data/

converter.py中的类别名，改成自己的数据集类别名。修改ultralytics/data/converter.py中的代码

转换后的OBB数据集格式的标签会保存在labels\train和labels\val中（训练需要使用的就是这两个文件夹，train_original和val_original用不到）

转换后的OBB数据集格式的标签文件中的内容

2.5 png格式影像裁剪

在项目代码目录下面创建下面的文件夹结构，然后将OBB格式的标签文件和对应的图像放到相应的文件夹中（里面的train_original和val_original文件夹不需要，截图里面多余了）

创建一个名为split_images.py的python文件，复制粘贴下面的代码：

from ultralytics.data.split_dota import split_test, split_trainval# 分割训练集和验证集，同时包含标签。标签需要是YOLO格式的，
# 即：0 0.332813 0.164062 0.403125 0.15 0.45 0.373437 0.379688 0.389062
#
# @param data_root str，数据根目录的路径。
# @param save_dir str，保存分割后数据集的目录路径。
# @param rates list，用于设定不同尺度分割比例的列表，例如[0.5, 1.0, 1.5]表示三个尺度。
# @param gap int，设定在数据集中间隔多少个样本进行一次分割。
split_trainval(data_root=r"D:\yolo11\datasets",save_dir=r"D:\yolo11\DOTAv1.0-split",rates=[1.0, 1.5],  # multiscale  1.0（640x640） 1.5（426x426）gap=100,
)# 分割测试集，不包含标签。
#
# @param data_root str，数据根目录的路径。
# @param save_dir str，保存分割后数据集的目录路径。
# @param rates list，用于设定不同尺度分割比例的列表，例如[0.5, 1.0, 1.5]表示三个尺度。
# @param gap int，设定在数据集中间隔多少个样本进行一次分割。
split_test(data_root=r"D:\yolo11\datasets",save_dir=r"D:\yolo11\DOTAv1.0-split",rates=[1.0, 1.5],  # multiscalegap=100,

运行代码之前记得调整导入函数的参数，运行代码之后裁剪的图像和对应的标注文件会在DOTAv1.0-split文件夹中

这里我其实有点疑惑，我原本是想把所有图像裁剪了再划分数据集，但是这里按照ultralytics里面的代码意思，似乎是先将所有的大幅影像先划分为训练影像、验证影像和测试影像，裁剪之后即是对应的数据集，但是先将所有的大幅影像先划分为训练影像、验证影像和测试影像的做法似乎不太科学，因为这样的话每个数据集中的图像差异可能比较大，我觉得可能不如裁剪之后随机划分数据集的做法，个人目前比较粗浅的看法。。。

2.6 挑选有标签的图像

裁剪得到的图像数量和标签数量是不匹配的，有些没有标签的图像没有舍弃掉。所有这里需要写个算法将有标签的图像挑选出来，与标签一一对应。

创建一个名为pick_images.py的python文件，复制粘贴下面的代码：

import os
import shutil# 定义路径
labels_dir = '/yolo11/greenhouse/DOTAv1.0-split/labels/train'
images_dir = '/yolo11/greenhouse/DOTAv1.0-split/images/train'
pick_dir = '/yolo11/greenhouse/DOTAv1.0-split/images/pick'# 确保 pick_dir 存在
os.makedirs(pick_dir, exist_ok=True)# 获取 labels_dir 下的所有 .txt 文件
label_files = [f for f in os.listdir(labels_dir) if f.endswith('.txt')]for label_file in label_files:# 提取文件名（不包括扩展名）base_name = os.path.splitext(label_file)[0]# 构建对应的图像文件路径image_jpg_path = os.path.join(images_dir, base_name + '.jpg')image_png_path = os.path.join(images_dir, base_name + '.png')# 检查是否存在对应的图像文件if os.path.exists(image_jpg_path):# 复制图像文件到 pick_dirshutil.copy(image_jpg_path, pick_dir)print(f"已复制 {image_jpg_path} 到 {pick_dir}")elif os.path.exists(image_png_path):# 复制图像文件到 pick_dirshutil.copy(image_png_path, pick_dir)print(f"已复制 {image_png_path} 到 {pick_dir}")else:print(f"未找到与 {label_file} 对应的图像文件")

2.7 数据集划分

先构建好文件夹结构，文件夹结构如下（所有图像放在img文件夹下，所有txt放在dotatxt文件夹下）

使用下面的代码划分数据集

import os
import random
import shutilrandom.seed(42)"""
该脚本用于将给定的数据集分割成训练集和测试集。
数据集应包含图像和对应的标注文件。
脚本会按照90%训练集和10%测试集的比例进行分割，并将图像和标注文件分别复制到相应的文件夹中。
"""# 设置数据集文件夹路径和输出文件夹路径
data_folder = 'data_mouse_ro'
img_folder = 'data_mouse_ro/dataset/images'
label_folder = 'data_mouse_ro/dataset/labels'# 计算每个子集的大小
# 总文件数乘以0.9得到训练集大小，其余为测试集大小
total_files = len(os.listdir(os.path.join(data_folder, 'img')))
train_size = int(total_files * 0.9)
test_size = int(total_files - train_size)# 获取所有图像文件的文件名列表，并进行随机打乱
image_files = os.listdir(os.path.join(data_folder, 'img'))
random.shuffle(image_files)# 复制图像和标注文件到相应的子集文件夹中
# 枚举每个图像文件，根据索引决定复制到训练集还是测试集文件夹
for i, image_file in enumerate(image_files):base_file_name = os.path.splitext(image_file)[0]  # 获取文件名（不包括扩展名）image_path = os.path.join(data_folder, 'img', image_file)label_path = os.path.join(data_folder, 'dotatxt', base_file_name + '.txt')# 根据索引判断文件应复制到训练集还是测试集if i < train_size:shutil.copy(image_path, os.path.join(img_folder, 'train'))  # 复制图像到训练集shutil.copy(label_path, os.path.join(label_folder, 'train_original'))  # 复制标注到训练集else:shutil.copy(image_path, os.path.join(img_folder, 'val'))  # 复制图像到测试集shutil.copy(label_path, os.path.join(label_folder, 'val_original'))  # 复制标注到测试集

3. 模型配置

4. 训练

5. 验证

写的比较急，后面再完善。。。