[论文笔记]图片语义分割 文献综述

原文:《基于深度学习的图像语义分割方法综述》2019_田萱,引用量=19

1.简介

是什么:ISS 为图像中的每一个像素分配一个预先定义好的表示其语义类别的标签。(田萱,2019)

  与目标检测区别?——相似点:都标注了物体的具体分类信息。不同点:ISS是像素级颗粒度的,需要把物体的轮廓描绘出来,用轮廓来标记物体。OD标记物体是其外切框。

  与实例分割的区别?——如果一张照片中有多个人,对于语义分割来说,只要将所有人的像素都归为一类--人这一类Person。但是实例分割还要将不同人的像素归为不同的类,Person1,Person2,Person3。也就是说实例分割比语义分割更进一步。

学术意义:ISS是计算机视觉领域的几大核心研究之一,其他的还有图像分类、物体识别检测。(田萱,2019)

工程意义:ISS 在虚拟现实(virtual or augmented reality systems)、工业自动化、视频检测、移动机器人(robots)、无人机(drones)、自动驾驶(autonomous driving)以及智慧安防有广泛的应用。(田萱,2019)

2.Existing Methods

1 Regional Cl.

这篇综述,将基于区域分类的方法也划分成了语义分割,我个人觉得是不合适的。语义分割应该是基于像素的,用object边缘来划分,而不是说用方框划分。这是目标检测,而不是语义分割。我猜测应该是这篇综述的作者为了凑字数、凑内容,为了让内容显得充实,把ISSbRC也拿进来作为语义分割的一种。

  1.1 候选区域

    是什么:-S1-先用区域生成算法(如“:selective search算法)得到一系列(如:2000个)候选区域,这个区域生成算法保证了每个候选区域都有可能包含潜在的目标物体。-S2-再用CNN提取各个候选区域的特征,-S3-然后再用分类器(如SVM)分类。

    优点:同时完成目标检测与图像语义分割两项任务

    缺点:(1)没有充分考虑图像中的全局语义信息(整个图片被分成了一小块一小块了,自然无法捕捉到这一小块和其他小块的关系), (2)分类图像中的小尺度物体和小面积区域时易出错。

    1.2 Segmentation Mask

    是什么:-S1-先通过目标检测方法(RCNN、DeepMask、MultiPath)识别出图像中潜在的目标候选对象,并且把他们从原有的大图片中把他们切成带有目标候选对象的小图片patch;-S2-利用RCNN等目标检测技术,通过对目标候选区域中的像素进行二分类,得到分割掩码-S3-使用精炼模块,对多张分割掩码进行优化处理,得到分割结果。

    ——segmentation mask的意思是,将对象object的区域像素值变成1,也就是白色;是背景的区域把像素值变成-1,也就是黑色;

    ——training set的每一条数据都是一个三元组triplet,包含三项数据。[1]x,每一个patch图片的每个像素的RGB值[2]m,每个像素点的segmentation mask值,-1或1,[3]y,每张图是否包含object,并且遵循下面两条要求,不包含取-1,包含取1。

      ——[1]object大致在图片的中央,在边缘位置不行[2]object的所有部分都要在这张图片里,如果图片中的object露一半,object的另一半在图片外,也不行

      ——模型训练过程.....,分为两个并行的任务。上面的任务通过 segmentation mask进行分割,把object从背景里面切出来。下面的任务负责打分score。score表示 the likelihood of 这个图片按照要求包含一个object。segmentation mask预测和score的预测,二者同时进行优化learn jointly。

    优点:可以挖掘多种尺寸、背景图片中的隐含信息

    缺点:下列情况准确率较低[1]小尺寸物体、[2]被遮挡物体、[3]背景复杂的图片

2 Pixel Cl.

——与ISSbRC的区别是:ISSbRC先将原始图像划分成不同的目标候选区域,得到一系列图像块(image patch),再对图像块图像块中的每个像素进行语义分类。ISSbPC是直接在像素级别上进行图像语义分割,省去了“产生目标候选区域”这一步骤。ISSbPC的出现是源于ISSbRC出现的下列问题,图像分割精度不高和分割速度不够快。

  2.1 Fully Supervised Learning

——全监督和弱监督学习的区别是什么?

  ——ISSbFSL使用的训练数据是经过人工精确加工的像素级标注;ISSbWSL使用的训练数据是弱标注的数据。

  1 FCN

( Fully Convolutional Networks )

  2 优化卷积

  3 Encoder-Decoder

  4 概率图

  5 特征融合

  6 RNN

  7 GAN

    2.2 Weakly Supervised Learning

    ——优势:经过粗略标记的弱标注图像进行训练,减少了标注时间和标注成本

      1 边框bounding-box级标注

      2 涂鸦scribble级标注

      3 图像级标注tag-level

    是什么:

    图像级标注只提供了物体种类信息,缺少位置、形状等信息。(应该给一张图,把图里面的 ,目标的标签名写出来only provide object categories,不标注这些类别的东西在哪里)

      4 多种弱标注数据混合

    是什么:

    将多种弱标注图像与像素级标注图像相互混合,通过混合训练的方式进行半监督学习.

    3.数据集和评价指标

    11个数据集,3个性能评价指标(2019,田萱)

    2D数据集,2.5D数据集,3D数据集(2017,Garcia)

    Accuracy

    Pixel Accuracy (PA),Mean Pixel Accuracy (MPA),Mean Intersection over Union (MIoU),Intersection over Union (IoU),(前面这几个所有文献综述都有),Frequency-Weighted Intersection over Union (FWIoU).(2019,Hao独有)

    Execution Time

    Memory Footprint

    4.有前景的研究方向

      ——[1]痛点[2]解决方案[3]目前方法有待改进的地方

(1)应用于场景解析任务的图像语义分割

痛点:场景解析任务处理的图像背景复杂环境多变。现有 ISSbDL 方法无法有效地捕获图像的上下文信息深度语义信息,在识别分割图像中目标物体时仍存在较大的困难.

目前方法有待改进的地方:难以选择标注基元量化级别、未充分利用场景几何深度等问题,

(2)实例级图像语义分割

是什么:实例级图像语义分割,也称为实例分割(instance segmentation,简称 IS),融合了分割与检测两个功能,可以分割出图像中同类物体的不同实例.

(3) 实时图像语义分割

是什么:实时图像语义分割以极高的分割速率处理图像或视频数据,并分析利用各图像(帧)之间的时空关系,是一 种以高分割速率运行的 ISS 机制.

有什么用途:常被应用于视频跟踪和多目标定位等任务,有巨大的商业价值,

痛点:提高实时图像语义分割的速度精度,

(4) 应用于三维数据的语义分割

痛点:[1]做这个方向的论文少。. [2]数据预处理困难:由于三维数据的无序性非结构化本质,如何合理离散化和结构化这些数据并有效地保留其空间位置信息,.[3]大规模数据集难以获取

(5) 应用于视频数据的语义分割

痛点:[1]充分利用视频丰富的 时空序列特征从视频高效抽取高层语义信息[2]做这个方向的论文少。.


_______________

怎么读论文

阅读论文的顺序

标题、abstract、结论、小标题+图表-浏览跳读([1]看的过程中标注什么要看、什么没必要看;[2]看的过程中你有什么必须要回答的问题)、回答这些问题、把标注的重点部分看了-提取有效信息

寻找哪些信息:

(1)什么是语义分割;(2)有哪些分割的场景,你不可能做的场景进行标注-少在上面花时间(3)每种场景在历史上哪些主流的、里程碑意义的方法[一句话一个技术带过,不可深究](4)目前最前沿、最新的方法,列列技术名字和时间--最多加一个核心思想(5)目前需要改进的地方有哪些?(6)常用数据集、性能评价指标

不看什么

(1)你一定不可能做的方向的技术实现和解释细节,不要看(2)过于古早的技术的技术细节不要看(3)已经懂的东西不要看,比如深度学习的发展历程,什么是CNN RNN(4)不要扣细节,抓住每个模块的精髓和主干---先列一个模块的所有标题,然后每个标题分配不同的关注度权重(5)过于偏门和古怪的方法不要看细节(6)一切细节除非特别重要,需要报告我审批,否则一律不许看,可以标注下来,以后需要的时候过来查字典一样查---掌握最最主要、最最重要的东西即可,等你要用哪个细分的方法的时候--你记得这篇文章讲过这个东西--你再回来看-回来查——如果一直都用不到--说明这个东西就没有看的必要

还没读完的论文-6

2022_Mo_Cite=18_Review the state-of-the-art technologies of semantic segmentation based on deep learning.pdf

3. Weakly-supervised semantic segmentation

3.1. Segmentation algorithm based on image-level labels

3.2. Segmentation algorithm based on bounding-box

3.3. Segmentation algorithm based on scribble

3.4. Segmentation algorithm based on point

4. Domain adaptation in semantic segmentation

4.1. Input-level domain adaptation

4.2. Feature-level domain adaptation

4.3. Output-level domain adaptation

5. Semantic segmentation based on multi-modal data fusion

5.1. Fuse RGB and thermal/depth images

5.2. Fuse RGB images and LiDAR point clouds

6. Real-time semantic segmentation

6.1 Lightweight classification model-based method

6.2 Specialized backbone based method

6.3 Two-branch architecture based method

2019_Atif_Cite=13_A_Review_on_Semantic_Segmentation_from_a_Modern_Perspective

A. Accuracy oriented Methods

CNN,FCN

3) DeepLab series

4) EncNet for Context encoding:

5) CRFasRNN:

6) RefineNet for refining finer details

7) PSPNet for global scene-level descriptor:

B. Efficiency oriented Methods

1) ENet:

2) ICNet:

2018_Yu_Cite=136_Methods and datasets on semantic segmentation A review

3.Hand-engineered features based scene labeling methods

  3.1. Methods using pixel(superpixel)-wise classification

  3.2 Methods using CRF(Plain、Higher order、Dense)

  3.3 Non-parametric methods

  3.4 3D scene labeling methods

  4 FCN

  5 Weakly and semi- supervised scene labeling methods

  5.1 Methods using image-level labels

  5.2 Methods using bounding box annotations

  5.3 Semi-supervised methods

2019_Hao_Cite=138_A Brief Survey on Semantic Segmentation with Deep Learning

  3.1. Supervised methods

    3.1.1. Context-based methods

    3.1.2. Feature-enhancement-based methods

    3.1.3. Deconvolution-based methods

    3.1.4. RNN-based methods

    3.1.5. GAN-based methods

    3.1.6. RGBD-based methods

    3.1.7. Real-time methods

  3.2. Weakly-supervised methods

    3.2.1. Methods based on tag-level supervision

    3.2.2. Methods based on scribble-level涂鸦 supervision

    3.2.3. Methods based on bounding-box-level supervision

(新颖)3.3. Semi-supervised methods

  3.3.1. Methods based on domain adaptation

  3.3.2. Methods based on few-shot learning

2018_Guo_Cite=402_A review of semantic segmentation using deep neural networks

  2 Region-based semantic segmentation

  3 FCN-based semantic segmentation

  4 Weakly supervised semantic segmentation

2017_Garcia_Cite=1227_A review on deep learning techniques applied to semantic segmentation

2018_Garcia_Cite=539_A survey on deep learning techniques for image and video semantic segmentation

  4.1 Decoder Variants

  4.2 Integrating Context Knowledge

    4.2.1 Conditional Random Fields

    4.2.2 Dilated膨胀 Convolutions

    4.2.3 Multi-scale Prediction

    4.2.4 Feature Fusion

    4.2.5 Recurrent Neural Networks

  4.3 Instance Segmentation

  4.4 RGB-D Data

    包含两幅图像。第一幅是RGB三原色图像。第二幅是Depth Map图像,类似于灰度图,每个像素值是传感器距离物体的实际位置

  4.5 3D Data

  4.6 Video Sequences

有可能还有用的东西

图像语义分割综述 - stone的文章 - 知乎https://zhuanlan.zhihu.com/p/37801090

史上最全语义分割综述https://blog.csdn.net/qq_41997920/article/details/96479243

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57569.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【每周CV论文推荐】GAN在医学图像分割中的典型应用

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。 生成对抗网络是一项非常基础的技术,医学图像则是一个非常重要的应用方向&#xff…

图像分类论文阅读

该论文通过结合VGG-19和VIT模型,实现乳腺超声图像的分类Breast Ultrasound Images Dataset | Kaggle PyTorch VGG19复现代码 # VGG19.py import torch import torch.nn as nnclass Conv(nn.Module):def __init__(self, in_channels, out_channels, kernel_size=1, stride=1,…

新华三的网络脉动:为AI泵血,向产业奔流

AI大模型作为最新的通用技术,今年以来,发展如火如荼。也有很多从业者和专家注意到,AI模型训练和应用过程中,需要优先考虑网络的升级与适配。 如果说数据中心、算力集群是AI的“心脏”,那么网络就犹如AI的“动脉”&…

人工智能算力需求稳增,中国将持续夯实算力底座

中国始终强调科技兴国的重要性。数字经济时代,技术的力量更为凸显。近年来,中国政府相关部门相继发布一系列政策,更加明确了人工智能对于提升中国核心竞争力的重要支撑作用,加上新基建、数字经济等持续利好政策的推动,…

>【无糖出品|必属精品】数据库人的福音,全网最全的增删改查.

它来了,它来了,带着众人的期望,数据库 ChatGPT 来啦! 前有excel-GPT,现在对于数据库人的福音来了,由无糖工作室开发的免费版 Easy-sql 实现人工智能输出Sql语句完全可以在工作中使用,增删改查不在话下. 你觉得这样的工具对你的…

华裔科学家颠覆光刻机时代!麻省理工突破1纳米工艺,引领2D晶体管革命的未来...

点击上方“小麦大叔”,选择“置顶/星标公众号” 福利干货,第一时间送达 来源:世界先进技术制造论坛 众所周知,光刻机作为芯片生产过程中的最主要的设备之一,其重要性不言而喻。 先进的制程工艺完全依赖于先进的光刻机设…

亚马逊、ebay、temu如何提升产品点击率?测评自养号解析

产品点击率对于店铺销售额的影响至关重要,尤其是在竞争越来越激烈的市场环境中,想要有销量和转化,提高产品listing点击率成为了非常关键的一环。 1. 产品主图 顾客浏览产品时,第一眼看到的就是主图,一张优质的主图更容…

使用接口根据关键词取亚马逊商品数据

响应参数 Version: Date: 名称类型必须示例值描述 items items[]0按关键字搜索视频 page Int01页码 real_total_results Int01900视频数量 total_results Int01900视频数量 page_size Int020接口返回数量 pagecount Int0120总页数 item item[]0视频详情数据 API接口工具 …

亚马逊FBA货件标签要求及标签模板

亚马逊发货需要遵守以下针对货件标签和库存包装的重要要求,以确保您的商品可安全快速地送达至亚马逊运营中心。 在您确定了要发往亚马逊的货件和要采用的相应配送方式和承运人后,便可对货物进行贴标和包装。 小包裹快递是使用单独的包装对商品进行包装…

【亚马逊运营】编写出色的产品标题需注意什么卖家们都知道吗?

有经验的卖家都知道,亚马逊对产品标题制定了新的规范,不符合要求标题的产品将可能会被抑制展示。那么在编写产品标题时,需要注意什么,接下来就好好看看船长BI分享的这几点吧!   01、标题的长度 一般情况下&#xf…

跨境电商亚马逊爆款标题如何写?之listing系列

我们知道,亚马逊的核心流量就是在标题上面,这是新品推广初期,吸引点击的一个重要因素,下面聊聊标题的几种写法: 1.淘宝里面的相似产品,直接谷歌翻译成英文,开头加个品牌,形成标题 2.参考竞品链…

如何做影视解说短视频?素材文案+配音,每一个都不能少

如何做影视解说短视频?素材文案配音,每一个都不能少 很多小伙伴都喜欢问我如何才能做出来一个影视解说短视频,其实并没有我们想象中的那么难。只是如果想要做成大号,变成拥有六千多万粉丝,狂赚四千多万的大佬账号&…

【短视频运营】短视频制作流程 ( 视频存稿 | 写脚本 | 拍摄收音 | 提词器 | 后期剪辑 | 前测工具 | 检查违禁词 )

文章目录 一、视频存稿1、初始存稿2、每月视频数 二、视频制作流程1、写脚本2、拍摄收音3、提词器4、后期剪辑5、前测工具6、违禁词检查 一、视频存稿 1、初始存稿 视频不要做一条发一条 , 积累够一定量的视频之后 , 在逐条发布 , 给稳定日更留下一定的缓冲时间 ; 如 : 先制作…

go语言300行代码实现即时通讯聊天室

学了2年Java,因为工作原因需要转Golang,3天时间学习了下go的基本语法,做这样一个聊天室小项目来巩固串联一下语法。 实现的功能:公聊,私聊,修改用户名 只用到了四个类: main.go:用来启动服务…

用微信打开链接提示“已停止访问该网页”可以用MaxJump来解除限制。

出现这种情的原因呢,我相信大家也去了解了很多,但是对于商家来说,我们要避免出现这种情况,或出现了要立马解决。了解原因再去想解决办法是技术的事情。一天没解决,就多一天的损失。原因大同小异,无非是域名…

Chrome解决访问限制SameSite设置

Cookie——SameSite属性 SameSite属性:Chrome浏览器为了防止CSRF攻击和用户追踪,Cookie的SameSite属性用来限制第三方Cookie,从而减少安全风险。即如调用第三方登录组件,会完全禁止第三方Cookie,跨站点时,…

如何给同事开通GA账户访问权限?

在很多时候,需要多人同事管理一个账户数据,那么数据需要共享。如何让大家都有可以查看的权限呢? GA数据查看有三个层级,每个层级都可以邀请他人查看权限,具体使用哪一个,看每个人的需求。 账户访问邀请权限…

禁止访问微信

微信找ip段,手动找了很久,后来用Proxifier,设置个假的代理ip 然后把wechat.exe加入到里面, 规则经过这个代理,默认的就直接通过, 然后看日志的报错信息 每次用shell wc -l统计下ip数,直到…

【Telegram】开启允许权限让你的TG可以实现bot直接监控频道

这篇教程教你怎么让自己的bot机器人监听群组或者频道(不设置管理员的情况下) 开启权限 1.首先我们TG找到BotFather 打开跟他的会话窗口,发送 /setprivacy 点击下面出现来的你的机器人名称。 选择第二个Disable 即可 2.如下图所示 3.出现…

限制服务器访问指定网站,如何允许或限制某一国或地区的用户访问网站

部分用户出于精准流量或其它需求,往往会限制某一国或地区的用户访问他们的网站,比如我们中文网站,可能会限制法国用户的访问,这如何去实现呢?我们的思路就是通过IP地址去限制。也就是说要先找到某一国或地区的IP&#…