论文阅读:基于语义分割的非结构化田间道路场景识别

论文地址:DOI: 10.11975/j.issn.1002-6819.2021.22.017


概要

环境信息感知是智能农业装备系统自主导航作业的关键技术之一。农业田间道路复杂多变,快速准确地识别可通行区域,辨析障碍物类别,可为农业装备系统高效安全地进行路径规划和决策控制提供依据。

本文提出了一种基于深度学习的田间非结构化道路场景语义分割模型,旨在通过图像识别技术对农业田间道路进行高效、准确的语义分割。通过对不同环境条件下采集的田间道路图像进行处理,模型能够识别动态和静态物体,支持自动化农业导航系统的路径规划和动态避障。本文模型结合了轻量级卷积神经网络(MobileNetV2)、混合扩张卷积、通道注意力机制和金字塔池化模块,优化了分割精度和运行效率,适用于农业导航系统中复杂的田间道路场景。

关键词: 机器视觉;语义分割;环境感知;非结构化道路;轻量卷积;注意力机制;特征融合

Motivation

随着农业自动化技术的发展,田间道路识别成为农业自动导航系统中的一项关键技术。

  • 传统的田间道路图像识别受限于复杂的环境条件,如不同光照、天气、路面类型等,导致识别效果不稳定。
  • 非结构化的农业道路(如园区道路、乡村道路)由于形态不规则、存在多种障碍物,给传统算法带来较大挑战。

因此,提出一种高效、鲁棒的田间道路场景语义分割模型,能够准确识别各种动态和静态对象,为农业自动化导航提供精准的场景理解和决策支持。

系统框架

本文的语义分割模型由编码器和解码器两部分组成,采用轻量级卷积神经网络(MobileNetV2)进行特征提取,辅以混合扩张卷积、通道注意力模块和金字塔池化模块以增强模型的分割能力和准确度。具体框架如下:

  • 编码器:使用MobileNetV2作为轻量级特征提取网络,通过卷积和池化操作提取图像的低级特征。
  • 混合扩张卷积:引入混合扩张卷积来扩大感受野,避免信息丢失,确保细节恢复。
  • 通道注意力机制:结合低级和高级特征信息,利用通道注意力机制提升特征融合效果,提高预测准确性。
  • 金字塔池化模块:通过多个尺度的池化操作聚合不同区域的信息,增强全局场景上下文信息,提升分割性能。
  • 解码器:上采样输出的特征图,并进行像素级分类得到最终的语义分割结果。

技术细节

本文田间道路场景语义分割模型属于全监督学习类型,需要使用人工精细标注的语义图像作为训练样本。采集的图像本身没有标签和语义,利用 Lableme 工具对图像中需要训练的类别进行语义标注,标注后的文件以.jason 格式存储,然后通过批量转换文件将标注文件转换为.png 格式的标签图像。

  • 轻量特征提取网络:使用MobileNetV2网络进行图像特征提取,改进了传统的深度卷积神经网络,使得模型在保证准确率的同时,具备较低的计算复杂度和较快的推理速度。MobileNetV2去除了全局池化和分类层,仅使用卷积层提取图像特征。

  • 混合扩张卷积:采用混合扩张卷积(Hybrid Dilated Convolution)代替传统的扩张卷积,通过设置不同扩张率(1, 2, 3)来避免信息丢失和感受野出现空间间隙。

  • 通道注意力模块:利用通道注意力机制,结合低级和高级特征进行融合,通过权重调整提升重要特征的权重,减少无关特征对结果的干扰,增强类内一致性。

  • 金字塔池化模块:采用金字塔池化模块,结合不同尺度的信息来增强全局上下文信息,提升模型在复杂场景中的分割精度。

  • 损失函数:结合交叉熵损失和Dice系数损失,使得模型在进行像素级分类时,既能够优化每个像素类别的准确性,又能够提高整体分割质量,特别是针对类别不平衡问题。

小结

根据表 1 的数据,可以得出以下几点分析:

  1. 静态物体识别(道路、天空、建筑、植被、土壤、水域): 这些对象具有明显的纹理、颜色和形状特征,因此它们的识别准确率较高。由于静态物体在不同环境中的外观变化较小,且在图像中通常具有较为稳定的特征,这使得深度学习模型能够有效提取并识别这些物体。

  2. 动态物体识别(车辆、行人): 车辆和行人属于动态障碍物,其识别准确率相对较低。动态物体的出现和运动会受到诸如距离、运动方向、速度等因素的影响,这些因素使得它们的外观变化更加不稳定,从而导致模型在分割时出现一定的困难。因此,车辆和行人通常需要更多的上下文信息和动态建模才能提高识别准确度。

  3. 地面覆盖物识别: 地面覆盖物(如泥土、草地等)的外观在不同季节和环境下变化较大,特征信息复杂多样。随着环境条件的变化,地面覆盖物的纹理、颜色、形状等特征会发生显著变化,给模型带来挑战。因此,这类物体的识别准确率通常较低。

  4. 小目标识别(线杆): 线杆等小目标在图像中的面积较小,经过多次下采样操作后,特征图的分辨率会显著降低,导致部分像素的空间位置信息丢失。这些小目标在恢复时容易出现不完全的分割或目标丢失的情况。即使通过上采样方法恢复特征图,模型仍难以恢复其准确的位置,因而导致识别准确率较低。

各类对象的识别准确率受到不同因素的影响,静态物体相对容易识别,而动态物体、地面覆盖物及小目标的准确度较低。针对这些问题,未来的研究可以在模型中加入更多的上下文信息、动态建模以及针对小目标的特征增强方法,进一步提升这些对象的识别精度。

根据表 2 的数据分析,可以得出以下结论:

  1. HDC 模块的影响

    • 采用 HDC(高效深度卷积)模块替代普通扩张卷积,显著提升了模型的 PA(像素准确率)和 MAP(均值平均精度),分别达到 89.82% 和 85.68%。
    • 这一提升表明,HDC 模块通过增大感受野并保留更多的像素空间位置信息,能够有效提高模型在像素预测方面的性能,尤其在处理具有复杂背景的图像时尤为有效。
    • 尽管 HDC 模块增加了计算复杂度,但其对模型的整体影响相对较小,参数量增加了 5.35%,检测速度降低了 10.70%。
  2. CAB 模块的影响

    • 引入通道注意力模块(CAB)后,模型的 PA 和 MAP 分别提升至 92.46% 和 88.72%。
    • CAB 模块利用高级阶段的强语义信息来引导低级阶段提取更具判别性的特征,从而增强了类内预测的一致性,并提升了分割效果。
    • 然而,CAB 模块带来了较大的参数量增加,模型的参数量增加了 39.28%,检测速度下降了 22.25%。
  3. PPM 模块的影响

    • 添加金字塔池化模块(PPM)使模型的 PA 和 MAP 达到最高值,分别为 94.85% 和 90.38%。
    • PPM 模块通过聚合不同区域的信息,增强了模型获取全局上下文的能力,提升了像素级别的预测精度。
    • 然而,PPM 模块对模型的计算开销影响较大,模型参数量增加了 54.48%,检测速度降低了 31.41%。
  4. 总结与对比

    • HDC 模块对模型的性能提升贡献最大,但对计算效率的影响最小,是最优的平衡点。
    • CAB 模块虽然显著提高了分割效果,但增加的计算成本较高,影响了检测速度。
    • PPM 模块对分割效果的提升作用最大,但其引入的计算开销也最大,导致检测速度下降明显。

因此,综合考虑模型性能和计算效率,HDC 模块的加入是最有效的,而 CAB 和 PPM 模块则在提升性能的同时,增加了较大的计算负担。在实际应用中,需根据具体需求权衡性能和效率。

本文提出了一种基于深度学习的田间非结构化道路语义分割模型,并在不同环境条件下进行数据采集和处理,证明该模型能够在农业导航系统中有效识别和分割复杂的道路场景。通过融合轻量级卷积神经网络、混合扩张卷积、通道注意力机制和金字塔池化模块,本文模型在保证较低计算复杂度的同时,显著提升了分割精度。实验结果表明,该模型能够实现高效的动态物体识别与路径规划,为农业自动导航系统提供可靠的道路场景解析支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/467554.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Ant Design Pro】如何实现组件的状态保存umi-plugin-keep-alive插件的使用

都知道vuejs里面帮我们实现了一个内置的keep-alive组件,给我们缓存一些组件的状态带来了很大的便利。但是在react中没有自带的实现,可以借助社区的插件umi-plugin-keep-alive来实现这个功能。 实现效果对比 未使用插件,可以看到我们在页面跳…

Amesim中PID控制元件

PID 控制原理 PID 即比例(Proportional)、积分(Integral)、微分(Derivative)控制。比例环节根据偏差的大小成比例地对系统进行调节,偏差越大,调节作用越强。积分环节用于消除系统的…

SpringBoot框架:共享汽车行业的技术革新

摘要 随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。本文介绍了共享汽车管理系统的开发全过程。通过分析共享汽车管理系统管理的不足,创建了一个计算机管理共享汽车管理系统的方案。文章介绍了共享汽车管理系统的系…

ASP.NET Core 路由规则,自定义特性路由 ,IActionConstraint 路由约束 总结 mvc

资料 资料 路由服务 路由服务是在 Program.cs 中使用 builder.Services.AddRouting()注册的, 只是默认在 builder 之前已经注册过了,无需我们再次注册。 AddRouting()方法必须在 UseRouting()方法之前运行,它是路由的基础服务。 MapContro…

linux基础——详细篇

免责声明 学习视频来自B 站up主泷羽sec,如涉及侵权马上删除文章。 笔记的只是方便各位师傅学习知识,以下代码、网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负。 linux 基础命令重现 cd(切…

Prosre:一款直观的协议发送模拟软件

Proser 是一款直观的协议编辑、发送端模拟软件。 在涉及二进制协议通信的程序开发过程中,我们经常会通过助手类工具编写协议来验证自己的代码,但这些助手对于大协议的编辑非常不友好,这时Proser会协助你轻松的完成测试。 特点 数据直接表达…

常见 HTTP 状态码分类和解释及服务端向前端返回响应时的最完整格式

目前开发的项目很大程度上是为明年的国产化做准备了,所以借这个机会把用了十年的自研系统全部重写,订立更严格的规范,本文记录一下返回格式及对应状态码。 常见 HTTP 状态码及解释 HTTP 状态码用于表示客户端请求的响应状态,它们…

【DL】YOLO11 OBB目标检测 | 模型训练 | 推理

本文进行YOLO11的旋转目标检测任务,旋转目标检测能够更精确地定位和描述那些非水平排列的目标,比如倾斜的飞机、船舶等。在原始的目标检测中,添加一个角度预测,实现定向边界框检测。 话不多说,先来个效果图!!! YOLO11中的旋转目标检测的特点 ▲更精确的定位:通过使用…

自动泊车端到端算法 ParkingE2E 介绍

01 算法介绍 自主泊车是智能驾驶领域中的一项关键任务。传统的泊车算法通常使用基于规则的方案来实现。因为算法设计复杂,这些方法在复杂泊车场景中的有效性较低。 相比之下,基于神经网络的方法往往比基于规则的方法更加直观和多功能。通过收集大量专家…

2025斯诺克器材与用品展,2025郑州台球器材展会3月举办

立足中原,辐射全国,壹肆柒2025中国(郑州)国际台球产业博览会,展位招商正在进行; 2025中国(郑州)国际台球产业博览会(壹肆柒台球展) The 2025 China (Zhengzh…

单调栈—acwing

一、题目: AcWing 830. 单调栈 - AcWing 暴力算法思想 双指针算法,本质上是比较操作,两个循环,时间复杂度高。通过栈可以一次遍历。 可以知道,只要前面有一个小于我的数,就可以。如果前面的数&#xff…

Ingress nginx 公开TCP服务

文章目录 背景搞起拓展( PROXY Protocol )参考 背景 公司业务繁多, HTTP、GRPC、TCP多种协议服务并存,Kubernetes流量入口复杂,所以萌生了通过LoadBalancer Ingress-nginx 的方式完全的结果入口流量,当然在高并发的场景下可以对…

小白投资理财 - 看懂 MACA K线图

小白投资理财 - 看懂 MACA K线图 什么是 MACDMACD 主要有三种用法第一是看快线和慢线两个线的位置第二是观察两条线交叉的情况第三就是通过观察 BAR 柱状图可预判该股市的走向例子 MACD 缺点总结 股市茫茫大海, 打开 K 线图, 几时开始入场, 几时应该退场傻傻不知道,没有一个指标…

Essential Cell Biology -- Fifth Edition

今天开始看一本书,单纯想学生物和英语。如果有错误烦请大家指出。黑色下划线是总结, Chapter one 1.1 Cell: the fundamental units of life 什么是生物的基本特征,并将它们与非生物区分开来? 答案取决于[ hinges on]一个现在…

windows 实现 linux tail -f 的效果

需求: 有的环境部署在windows上面,想要查看生成的log日志,用文本打开无法实现自动更新,想要linux tail -f 的效果 编写txt文件 echo off powershell -Command "Get-Content -Path 文件地址 -Wait -Tail 200 -Encoding UTF8…

MySQL数据库专栏(四)MySQL数据库链接操作C#篇

摘要 主要讲述MySQL数据库链接操作C#的操作 目录 1、添加引用 2、接口介绍 2.1、MySqlConnection 2.2、MySqlCommand 2.3、MySqlDataReader 2.4、MySqlDataAdapter 2.5、MySqlTransaction 3、全网功能最全辅助类实现 4、辅助类调用实例 1、添加引用 …

tensorflow案例5--基于改进VGG16模型的马铃薯识别,准确率提升0.6%,计算量降低78.07%

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 前言 本次采用VGG16模型进行预测,准确率达到了98.875,但是修改VGG16网络结构, 准确率达到了0.9969,并且计算量…

【MM-Align】学习基于输运的最优对齐动力学,快速准确地推断缺失模态序列

代码地址 - > github传送 abstract 现有的多模态任务主要针对完整的输入模态设置,即每个模态在训练集和测试集中要么是完整的,要么是完全缺失的。然而,随机缺失的情况仍然没有得到充分的研究。在本文中,我们提出了一种新的方…

github使用基础

要通过终端绑定GitHub账号并进行文件传输,你需要使用Git和SSH密钥来实现安全连接和操作。以下是一个基本流程: 设置GitHub和SSH 检查Git安装 通过终端输入以下命令查看是否安装Git: bash 复制代码 git --version配置Git用户名和邮箱 bash …

教程:FFmpeg结合GPU实现720p至4K视频转换

将一个 720p 的视频放大编码到 4K,这样的视频处理在很多业务场景中都会用到。很多视频社交、短视频、视频点播等应用,都会需要通过服务器来处理大量的视频编辑需求。 本文我们会探讨一下做这样的视频处理,最低的 GPU 指标应该是多少。利用开源…