每日学术速递2.1

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.Cv

1.SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation

标题:SeaFormer:用于移动语义分割的挤压增强型轴向变换器

作者:  Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang

文章链接:https://arxiv.org/abs/2301.13156v1

项目代码:https://github.com/fudan-zvg/seaformer

摘要:

        自从引入视觉变换器后,许多计算机视觉任务(如语义分割)的格局,最近被CNN压倒性地主宰,发生了显著的变化。然而,计算成本和内存要求使得这些方法不适合在移动设备上使用,特别是对于高分辨率的每像素语义分割任务。在本文中,我们介绍了一种用于移动语义分割的新方法--挤压增强的轴向变换器(SeaFormer)。具体来说,我们设计了一个通用的注意力块,其特点是制定挤压轴向和细节增强。它可以进一步用于创建一个具有卓越成本效益的骨干架构系列。与轻型分割头相结合,我们在ADE20K和Cityscapes数据集上基于ARM的移动设备上实现了分割精度和延迟之间的最佳权衡。最关键的是,我们以更好的性能和更低的延迟击败了对移动设备友好的对手和基于变压器的同行,而没有任何花哨的东西。除了语义分割之外,我们还将提出的SeaFormer架构应用于图像分类问题,展示了其作为多功能移动友好骨干的潜力。

Since the introduction of Vision Transformers, the landscape of many computer vision tasks (e.g., semantic segmentation), which has been overwhelmingly dominated by CNNs, recently has significantly revolutionized. However, the computational cost and memory requirement render these methods unsuitable on the mobile device, especially for the high-resolution per-pixel semantic segmentation task. In this paper, we introduce a new method squeeze-enhanced Axial TransFormer (SeaFormer) for mobile semantic segmentation. Specifically, we design a generic attention block characterized by the formulation of squeeze Axial and detail enhancement. It can be further used to create a family of backbone architectures with superior cost-effectiveness. Coupled with a light segmentation head, we achieve the best trade-off between segmentation accuracy and latency on the ARM-based mobile devices on the ADE20K and Cityscapes datasets. Critically, we beat both the mobile-friendly rivals and Transformer-based counterparts with better performance and lower latency without bells and whistles. Beyond semantic segmentation, we further apply the proposed SeaFormer architecture to image classification problem, demonstrating the potentials of serving as a versatile mobile-friendly backbone.

2.Counterfactual Explanation and Instance-Generation using Cycle-Consistent Generative Adversarial Networks

标题:使用循环一致的生成式对抗网络进行反事实解释和实例生成

作者:Tehseen Zia, Zeeshan Nisar, Shakeeb Murtaza

文章链接:https://arxiv.org/abs/2301.08939v1

项目代码:https://github.com/zeeshannisar/cx_gan

摘要:

        基于图像的诊断现在是现代自动化辅助诊断的一个重要方面。为了使模型能够产生像素级的诊断,基本上需要像素级的地面真实标签。然而,由于在许多应用领域(如医学图像)中,获得标签往往并不容易,基于分类的方法已经成为执行诊断的事实标准。尽管它们可以识别出类的优势区域,但对于捕捉所有证据是重要要求的诊断来说,它们可能并不有用。另外,反事实解释(CX)的目的是利用 "如果X没有发生,Y就不会发生 "这样的随意推理过程来提供解释。然而,现有的CX方法使用分类器来解释那些可以改变其预测的特征。因此,它们只能解释类的特征,而不是整个感兴趣的对象。因此,这促使我们提出一种不依赖图像分类的新型CX策略。这项工作受到了基于生成对抗网络(GANs)的图像到图像领域翻译的最新发展的启发,并利用将异常图像翻译成对应的正常图像(即反事实实例CI)来寻找两者之间的差异图。由于通常不可能获得异常和正常的图像对,我们利用周期一致性原则(又称CycleGAN),以无监督的方式进行翻译。我们用差异图来表述CX,当从异常图像中添加时,将使其与CI无法区分。我们在三个数据集上评估了我们的方法,包括一个合成数据集、结核病数据集和BraTS数据集。所有这些实验都证实了提议的方法在生成准确的CX和CI方面的优越性。

The image-based diagnosis is now a vital aspect of modern automation assisted diagnosis. To enable models to produce pixel-level diagnosis, pixel-level ground-truth labels are essentially required. However, since it is often not straight forward to obtain the labels in many application domains such as in medical image, classification-based approaches have become the de facto standard to perform the diagnosis. Though they can identify class-salient regions, they may not be useful for diagnosis where capturing all of the evidences is important requirement. Alternatively, a counterfactual explanation (CX) aims at providing explanations using a casual reasoning process of form "If X has not happend, Y would not heppend". Existing CX approaches, however, use classifier to explain features that can change its predictions. Thus, they can only explain class-salient features, rather than entire object of interest. This hence motivates us to propose a novel CX strategy that is not reliant on image classification. This work is inspired from the recent developments in generative adversarial networks (GANs) based image-to-image domain translation, and leverages to translate an abnormal image to counterpart normal image (i.e. counterfactual instance CI) to find discrepancy maps between the two. Since it is generally not possible to obtain abnormal and normal image pairs, we leverage Cycle-Consistency principle (a.k.a CycleGAN) to perform the translation in unsupervised way. We formulate CX in terms of a discrepancy map that, when added from the abnormal image, will make it indistinguishable from the CI. We evaluate our method on three datasets including a synthetic, tuberculosis and BraTS dataset. All these experiments confirm the supremacy of propose method in generating accurate CX and CI.

3.Edge-guided Multi-domain RGB-to-TIR image Translation for Training Vision Tasks with Challenging Labels

标题:边缘引导的多域RGB-TIR图像翻译用于具有挑战性标签的训练视觉任务

作者: Dong-Guw Lee, Myung-Hwan Jeon, Younggun Cho, Ayoung Kim

文章链接:https://arxiv.org/abs/2301.12689v1

项目代码:https://github.com/rpmsnu/sRGB-TIR

摘要:

        有注释的热红外(TIR)图像数据集数量不足,这不仅阻碍了基于TIR图像的深度学习网络具有与RGB相当的性能,而且还限制了基于TIR图像任务的监督学习,因为标签具有挑战性。作为一种补救措施,我们提出了一个改进的多域RGB到TIR图像翻译模型,重点是保留边缘,以采用具有挑战性标签的RGB图像。我们提出的方法不仅保留了原始图像的关键细节,而且还利用了最佳的TIR风格代码,在翻译后的图像中描绘出准确的TIR特征,当应用于合成和真实世界的RGB图像时。使用我们的翻译模型,我们已经实现了基于TIR图像的光流估计和物体检测的监督学习,通过平均减少56.5%的端点误差和23.9%的最佳物体检测mAP,改善了深TIR光流估计。

The insufficient number of annotated thermal infrared (TIR) image datasets not only hinders TIR image-based deep learning networks to have comparable performances to that of RGB but it also limits the supervised learning of TIR image-based tasks with challenging labels. As a remedy, we propose a modified multidomain RGB to TIR image translation model focused on edge preservation to employ annotated RGB images with challenging labels. Our proposed method not only preserves key details in the original image but also leverages the optimal TIR style code to portray accurate TIR characteristics in the translated image, when applied on both synthetic and real world RGB images. Using our translation model, we have enabled the supervised learning of deep TIR image-based optical flow estimation and object detection that ameliorated in deep TIR optical flow estimation by reduction in end point error by 56.5% on average and the best object detection mAP of 23.9% respectively. Our code and supplementary materials are available at https://github.com/rpmsnu/sRGB-TIR.

更多Ai资讯:公主号AiCharm
在这里插入图片描述 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/53472.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python轨迹可视化:用数据讲故事

Python轨迹可视化:用数据讲故事 介绍 随着物联网、智能城市等领域的发展,越来越多的数据被收集下来并存储在数据库中。这些数据对于决策者来说是非常重要的,但是如何将这些数据进行展示和分析呢?这时候Python轨迹可视化就可以派…

AutoCV第八课:3D基础

目录 3D基础注意事项一、2023/5/11更新二、2023/5/15更新前言1. nuScenes数据集2. nuScenes数据格式3. 点云可视化4. 点云可视化工具5. 点云可视化(补充)总结 3D基础 注意事项 一、2023/5/11更新 新增工具可视化点云,即第 4 节内容 二、2023/5/15更新 经杜老师…

chatgpt赋能python:Python轨迹绘制:让数据可视化更易懂

Python轨迹绘制:让数据可视化更易懂 在数据可视化中,轨迹图应该是最为常见的一种类型了。轨迹图通过展示物体或用户在一定时间范围内移动的路径,帮助我们更加直观地理解和分析数据。 在Python中,我们可以使用多种库来绘制轨迹图…

chatgpt赋能python:Python坐标表示:让您的数据可视化更加精确!

Python坐标表示:让您的数据可视化更加精确! 在数据可视化中,通过准确的坐标表示数据点的位置是非常重要的。Python作为最受欢迎的编程语言之一,有多种方法来表示坐标。在本文中,我们将深入探讨Python中坐标表示的不同…

chatgpt赋能python:Python色板介绍:让数据可视化更加迷人

Python色板介绍:让数据可视化更加迷人 在数据可视化中,合适的配色方案是非常重要的。Python色板是一种常用的工具,可以帮助数据分析师和科学家创建漂亮、易于阅读的图表。本文将为大家介绍Python色板,包括一些主流的Python色板、…

人生意义

一块蛋糕最终还是会被吃完,那么你吃它的目的是什么? 1.你不能因为一样美好的东西最终会消失而否定它的意义。 2.生命是一场馈赠。它和所有我们收到的其它礼物,比如蛋糕一样,本身并没有意义, 但如果你能享受它的美好…

程序员:我终于知道post和get的区别

效率工具传送门 推荐20套实战源码 程序员你可以考虑安装的15款谷歌插件 99%的人不知道搜索引擎的6个技巧 12款好用的Visual Studio插件,最后一款良心推荐 IT界知名的程序员曾说:对于那些月薪三万以下,自称IT工程师的码农们,其…

chatgpt赋能python:Python通过IP连接同一局域网中的电脑

Python通过IP连接同一局域网中的电脑 在日常工作中,我们常常需要在本地局域网内进行电脑之间的通信,这时候就需要借助一些工具来进行IP连接。而对于Python编程来说,实现这个过程也非常简单。 什么是IP连接 IP连接指的是使用IP地址和端口号…

chatgpt赋能python:Python获取电脑IP地址方法与实例

Python获取电脑IP地址方法与实例 什么是IP地址 IP地址是一个数字标识符,是指在Internet协议中用作网络接口标识和定位地址的32位二进制数,通常表现为四个十进制数,每个数用“.”分隔,如192.168.0.1。在不同的网络协议中&#xf…

win10计算机ip如何更改,Win10本地连接ip怎么更改_Win10怎么更改ip地址?-192路由网...

问:Win10本地连接IP地址怎么更改? 本人是电脑小白,新买的电脑,是Win10系统;请问Win10电脑中的IP地址在哪里更改? 答:Win10系统IP地址需要在“本地连接”的 属性 中进行更改的。所以,…

chatgpt赋能python:Python获得电脑IP地址

Python获得电脑IP地址 在进行网络编程时,通常需要获取本机的IP地址。对于Python开发者来说,获取电脑IP地址可能是开发过程中常见需求之一。本文将介绍如何使用Python获取电脑IP地址,以及其中的一些常见问题和解决方案。 什么是IP地址&#…

万字长文 | ChatGPT的工作原理(二)

— 6 — 嵌入的概念 神经网络 —— 至少在它们目前的设置中 —— 从根本上说是基于数字的。因此,如果我们要用它们来处理像文本这样的东西,我们就需要一种方法来用数字表示我们的文本。 当然,我们可以开始(基本上就像 ChatGPT 那…

You don't have permission to access 权限问题

修改pip.ini配置文件如下: 综合搜索案例如下: 我遇到的情况是修改了,第一张图的配置,还是不行,那就是其他情况,虽然第二张图的这种写法,在线上是可以用的,但是在线下是不能用的&…

网络错误:windows无法访问\\,你没有权限访问\\

网络错误:windows无法访问\\,你没有权限访问\\ 电脑突然不能网络访问。 客户端:win10 服务器端:win2003 处理办法: 设置/控制面板/用户帐户/管理windows凭证 检查是否存在登录过的ip信息: 如果存在,删除…

关于访问权限控制问题

实际上Java中是有访问权限控制的,就是我们个人的隐私的一样,我不允许别人随便来查看我们的隐私,只有我们自己同意的情况下,才能告诉别人我们的名字、年龄等隐私信息。 所以说Java中引入了访问权限控制(可见性),我们可…

解决“你没有权限访问,请与网络管理员联系”

局域网共享时提示你"没有权限访问,请与网络管理员联系请求访问权限".局域网共享无法访问被共享的文件夹。 方法/步骤 1 找到你要共享的文件夹,选中并且右键,选中属性,选择安全选项卡 2 点击安全选项卡下面的编辑&#x…

解决局域网共享文件时提示“没有权限访问,请与网络管理员联系请求访问权限“

在两台或者多台装有Windows中的PC之间进行大文件传输时,如何比较快速、便捷的传输呢?当时是Windows局域网共享! 右击想要共享的文件或文件夹,在弹出的菜单栏选择“属性”: 在弹出的文档“属性”选项卡中,点…

智能感知编码优化与落地实践

作者 | XHF 导读 基于人眼视觉特性出发的感知编码优化技术,成为互联网短视频、OTT 等 UGC 场景的重点优化手段,可以在降低视频码率的同时,提升视频的观看体验。 今天主要有 4 个方面的内容。首先给大家介绍一下感知编码的技术背景&#xff1b…

诺基亚与微软完成交易 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 4 月 25 日,在 2005 年的今天,网易 CEO 丁磊确认,《环球企业家》原总经理兼执行主编李甬将在 5 月 1 日后正式出任网易副总裁…