【计算机视觉 | 目标检测 | 图像分割】arxiv 计算机视觉关于目标检测和图像分割的学术速递(7 月 17 日论文合集)

文章目录

  • 一、检测相关(5篇)
    • 1.1 TALL: Thumbnail Layout for Deepfake Video Detection
    • 1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels
    • 1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection
    • 1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections
    • 1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations
  • 二、分割|语义相关(5篇)
    • 2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes
    • 2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation
    • 2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation
    • 2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation
    • 2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

一、检测相关(5篇)

1.1 TALL: Thumbnail Layout for Deepfake Video Detection

Tall:用于深度假冒视频检测的缩略图布局

https://arxiv.org/abs/2307.07494

在这里插入图片描述
deepfake对社会和网络安全的威胁日益严重,引起了公众的极大关注,人们越来越多地致力于deepfake视频检测这一关键话题。现有的视频方法实现了良好的性能,但计算密集型。本文介绍了一种简单而有效的策略–缩略图布局(TALL),该策略将视频片段转换为预定义的布局,以实现空间和时间依赖性的保留。具体地,连续帧在每个帧中的固定位置被掩蔽以改善泛化,然后调整大小为子图像并重新布置为预定义的布局作为缩略图。TALL是模型无关的,而且非常简单,只需修改几行代码即可。受Vision Transformers成功的启发,我们将TALL整合到Swin Transformer中,形成了一种高效的方法TALL-Swin。在数据集内和跨数据集上的大量实验验证了TALL和SOTA TALL-Swin的有效性和优越性。TALL-Swin在具有挑战性的跨数据集任务FaceForensics++ → \to Celeb-DF上实现了90.79 % \% % AUC。该代码可在https://github.com/rainy-xu/TALL4Deepfake获得。

1.2 Cloud Detection in Multispectral Satellite Images Using Support Vector Machines With Quantum Kernels

基于量子核支持向量机的多光谱卫星云层检测

https://arxiv.org/abs/2307.07281

在这里插入图片描述
支持向量机(SVM)是一个成熟的分类器,有效地部署在一系列模式识别和分类任务。在这项工作中,我们考虑扩展经典的支持向量机与量子内核,并将其应用到卫星数据分析。提出了一种量子核支持向量机(混合支持向量机)的设计与实现。它包括量子核估计(QKE)程序与经典的SVM训练例程相结合。像素数据被映射到希尔伯特空间使用ZZ-特征映射作用于参数化的假设状态。优化参数以最大化内核目标对齐。我们探讨了卫星图像数据云检测问题,这是地面和星载卫星图像分析处理链中的关键步骤之一。在基准Landsat-8多光谱数据集进行的实验表明,模拟的混合SVM成功地分类卫星图像的准确性与经典的支持向量机。

1.3 Multimodal Motion Conditioned Diffusion Model for Skeleton-based Video Anomaly Detection

基于骨架的视频异常检测多模运动条件扩散模型

https://arxiv.org/abs/2307.07205

在这里插入图片描述
异常是罕见的,因此异常检测通常被框定为一类分类(OCC),即只接受过正常生活训练领先的OCC技术将正常运动的潜在表示限制在有限的体积内,并将外部的任何异常检测为异常,这令人满意地解释了异常的开放性。但是常态具有相同的开集性质,因为人类可以用几种方式执行相同的动作,这是领先的技术所忽视的。我们提出了一种新的生成模型的视频异常检测(VAD),它假设正常和异常是多模态的。我们认为骨架表示和利用国家的最先进的扩散概率模型,以产生多模态未来的人类构成。我们贡献了一个新的空调上的人过去的运动,并利用改进的模式覆盖能力的扩散过程中产生不同的,但似乎合理的未来运动。在对未来模式进行统计聚合时,当所生成的运动集合与实际未来不相关时,检测到异常。我们在4个已建立的基准上验证我们的模型:UBnormal、HR-UBnormal、HR-STC和HR-Avenue,广泛的实验超越了最先进的结果。

1.4 Brain Tumor Detection using Convolutional Neural Networks with Skip Connections

基于带跳连接的卷积神经网络的脑肿瘤检测

https://arxiv.org/abs/2307.07503

在这里插入图片描述
在本文中,我们提出了不同的卷积神经网络(CNN)的架构,使用磁共振成像(MRI)技术分析和分类的良性和恶性类型的脑肿瘤。应用不同的CNN架构优化技术,例如网络的加宽和加深以及添加跳过连接,以提高网络的准确性。结果表明,这些技术的子集可以明智地用于优于用于相同目的的基线CNN模型。

1.5 cOOpD: Reformulating COPD classification on chest CT scans as anomaly detection using contrastive representations

COOpD:重新制定胸部CT扫描的COPD分类作为使用对比表示法的异常检测

https://arxiv.org/abs/2307.07254

在这里插入图片描述
异质性疾病的分类是具有挑战性的,由于其复杂性,多变的症状和影像学表现。慢性阻塞性肺疾病(COPD)就是一个很好的例子,尽管是第三大死亡原因,但仍被诊断不足。其稀疏,弥漫和异构的计算机断层扫描的外观挑战监督二进制分类。我们将COPD二元分类重新表述为异常检测任务,提出cOOpD:异质病理区域被检测为来自正常同质肺区域的分布外(OOD)。为此,我们采用自监督对比借口模型学习未标记肺区域的表示,可能捕获患病和健康未标记区域的特定特征。生成模型然后学习健康表示的分布,并将异常(源于COPD)识别为偏差。通过汇总区域OOD评分获得患者水平评分。我们表明,cOOpD在两个公共数据集上实现了最佳性能,与以前的监督最先进的技术相比,AUROC增加了8.2%和7.7%。此外,cOOpD产生可解释的空间异常图和患者水平的分数,我们证明这在识别进展早期的个体中具有额外的价值。在人工设计的真实世界患病率设置中的实验进一步支持异常检测是解决coro分类的有力方式。

二、分割|语义相关(5篇)

2.1 SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes

SynTable:一种用于杂乱桌面场景不可见对象非模态实例分割的合成数据生成流水线

https://arxiv.org/abs/2307.07333

在这里插入图片描述
在这项工作中,我们提出了SynTable,一个统一和灵活的Python数据集生成器,使用NVIDIA的Isaac Sim Replicator Composer构建,用于生成高质量的合成数据集,用于看不见的对象amodal实例分割杂乱桌面场景。我们的数据集生成工具可以渲染包含对象网格、材质、纹理、光照和背景的复杂3D场景。元数据,如模态和模态实例分割掩模,遮挡掩模,深度图,边界框和材料属性,可以生成,以自动注释根据用户的要求的场景。我们的工具消除了在数据集生成过程中手动标记的需要,同时确保数据集的质量和准确性。在这项工作中,我们讨论了我们的设计目标,框架体系结构,和我们的工具的性能。我们演示了使用光线跟踪使用SynTable生成的样本数据集来训练最先进的模型UOAIS-Net。结果表明,显着改善的性能,在模拟到真实的传输时,OSD-Amodal数据集进行评估。我们提供这个工具作为一个开源的,易于使用的,逼真的数据集生成器,用于推进深度学习和合成数据生成的研究。

2.2 FreeCOS: Self-Supervised Learning from Fractals and Unlabeled Images for Curvilinear Object Segmentation

基于自监督学习的曲线目标分割算法

https://arxiv.org/abs/2307.07245

在这里插入图片描述
曲线对象分割对于许多应用是关键的。然而,手动注释曲线对象是非常耗时和容易出错的,产生现有的监督方法和域自适应方法的可用注释数据集不足。本文提出了一种自监督曲线对象分割方法,该方法从分形和未标记图像(FreeCOS)中学习鲁棒性和独特性。主要贡献包括一个新的分形FDA合成(FFS)模块和几何信息对齐(GIA)的方法。FFS基于参数分形L系统生成曲线结构,并将生成的结构集成到未标记的图像中,以通过傅立叶域自适应获得合成训练图像。GIA通过比较给定像素的强度顺序与其附近邻居的值来减少合成图像和未标记图像之间的强度差异。这样的图像对准可以明确地去除对绝对强度值的依赖性,并且增强在合成图像和真实图像两者中共同的固有几何特性。此外,GIA通过预测空间自适应损失(PSAL)和曲线掩模对比损失(CMCL)对齐合成图像和真实图像的特征。在四个公共数据集上的广泛实验结果,即,XCAD,DRIVE,STARE和CrackTree表明,我们的方法优于最先进的无监督方法,自监督方法和传统方法的大幅度提高。该工作的源代码可在https://github.com/TY-Shi/FreeCOS上获得。

2.3 Adaptive Region Selection for Active Learning in Whole Slide Image Semantic Segmentation

自适应区域选择在整体幻灯片图像语义分割中的主动学习

https://arxiv.org/abs/2307.07168

在这里插入图片描述
为了训练监督分割模型而在像素级注释组织学千兆像素大小的全载玻片图像(WSIs)的过程是耗时的。基于区域的主动学习(AL)涉及在有限数量的注释图像区域上训练模型,而不是请求整个图像的注释。这些注释区域被迭代地选择,其目标是在最小化注释区域的同时优化模型性能。区域选择的标准方法评估指定大小的所有正方形区域的信息量,然后选择特定数量的信息量最大的区域。我们发现该方法的效率高度依赖于AL步长的选择(即,区域大小和每个WSI的所选区域的数量的组合),以及次优的AL步长可能导致冗余的注释请求或膨胀的计算成本。本文介绍了一种新的技术,用于自适应地选择注释区域,减轻对这个AL超参数的依赖。具体来说,我们动态地确定每个区域,首先确定一个信息区域,然后检测其最佳的边界框,而不是选择一个统一的预定义的形状和大小的区域,在标准方法。我们使用公共CAMELYON16数据集上的乳腺癌转移分割任务来评估我们的方法,并表明它在各种AL步长中始终实现比标准方法更高的采样效率。只有2.6%的组织区域注释,我们实现了完整的注释性能,从而大大降低了注释WSI数据集的成本。源代码可在https://github.com/DeepMicroscopy/AdaptiveRegionSelection获得。

2.4 AnyStar: Domain randomized universal star-convex 3D instance segmentation

AnyStar:域随机化通用星凸3D实例分割

https://arxiv.org/abs/2307.07044

在这里插入图片描述
星凸形状以细胞核、结节、转移瘤和其他单位的形式出现在生物显微镜和放射学中。用于这种结构的现有实例分割网络在每个数据集的密集标记的实例上训练,这需要大量且通常不切实际的手动注释工作。此外,当由于对比度、形状、取向、分辨率和密度的变化而呈现新的数据集和成像模态时,需要显著的重新设计或微调。我们提出了AnyStar,这是一个域随机生成模型,它模拟具有随机外观,环境和成像物理的斑点状对象的合成训练数据,以训练通用的星凸实例分割网络。因此,使用我们的生成模型训练的网络不需要来自看不见的数据集的注释图像。在我们的合成数据上训练的单个网络准确地3D分段C。elegans和P.荧光显微镜中的dumerilii核、微CT中的小鼠皮质核、EM中的斑马鱼脑核和人胎儿MRI中的胎盘子叶,所有这些都没有任何再训练、微调、迁移学习或域适应。代码可在https://github.com/neel-dey/AnyStar获得。

2.5 Frequency Domain Adversarial Training for Robust Volumetric Medical Segmentation

用于健壮体积医学分割的频域对抗性训练

https://arxiv.org/abs/2307.07269

在这里插入图片描述
确保深度学习模型在医疗保健等关键应用中的鲁棒性至关重要。虽然深度学习的最新进展提高了体积医学图像分割模型的性能,但由于这些模型容易受到对抗性攻击,因此无法立即部署到现实世界的应用中。我们提出了一个三维频域对抗攻击的体积医学图像分割模型,并证明其优势,传统的输入或体素域攻击。使用我们提出的攻击,我们引入了一种新的频域对抗训练方法,用于优化针对体素和频域攻击的鲁棒模型。此外,我们提出了频率一致性损失来调节我们的频域对抗训练,从而在模型对干净样本和对抗样本的性能之间实现更好的权衡。代码可在https://github.com/asif-hanif/vafa公开获得。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/73350.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从录取成绩的角度来看,浙大MPA面试的客观公正性是有一定依据的

时间即将来到八月份!不知道目前考生们今年的备考情况怎么样了,度过比较煎熬的三伏天,距离考研冲刺的时间越来越近! 提前批面试申请对于不同的项目以及不同的考生意义都不一样。比如真正的学霸人物对于提面的申请与不申请一般差别不…

关于K8s的Pod的详解(一)

关于K8s的Pod的详解(一) Pod和API server的通信加快Pod启动更改Pod的资源Pod 的持久卷的单个访问模式Pod 拓扑分布约束Pod 拓扑分布中的最小域数 Pod 作为k8s创建,调度,管理的基本单位。由上级的Controller对Node上安装的Kubelet发…

Pytorch深度学习之余弦退火学习率设置

1. 什么是余弦退火学习率? 余弦退火学习速率调度是改进深度神经网络学习过程的常用方法。当深度神经网络在大型数据集上训练时,它尤其有用,因为在大型数据集中,学习过程可能会陷入局部极小值。在训练过程中,学习率以不…

MongoDB文档--架构体系

阿丹: 在开始学习先了解以及目标知识的架构体系。就能事半功倍。 架构体系 MongoDB的架构体系由以下几部分组成: 存储结构:MongoDB采用文档型存储结构,一个数据库包含多个集合,一个集合包含多个文档。存储形式&#…

C语言假期作业 DAY 01

题目 1.选择题 1、执行下面程序,正确的输出是( ) int x5,y7; void swap() { int z; zx; xy; yz; } int main() { int x3,y8; swap(); printf("%d,%d\n",x, y)…

ZooKeeper原理剖析

1.ZooKeeper简介 ZooKeeper是一个分布式、高可用性的协调服务。在大数据产品中主要提供两个功能: 帮助系统避免单点故障,建立可靠的应用程序。提供分布式协作服务和维护配置信息。 2.ZooKeeper结构 ZooKeeper集群中的节点分为三种角色:Le…

自动驾驶感知系统-全球卫星定位系统

卫星定位系统 车辆定位是让无人驾驶汽车获取自身确切位置的技术,在自动驾驶技术中定位担负着相当重要的职责。车辆自身定位信息获取的方式多样,涉及多种传感器类型与相关技术。自动驾驶汽车能够持续安全可靠运行的一个关键前提是车辆的定位系统必须实时…

【雕爷学编程】MicroPython动手做(33)——物联网之天气预报3

天气(自然现象) 是指某一个地区距离地表较近的大气层在短时间内的具体状态。而天气现象则是指发生在大气中的各种自然现象,即某瞬时内大气中各种气象要素(如气温、气压、湿度、风、云、雾、雨、闪、雪、霜、雷、雹、霾等&#xff…

STM32基础入门学习笔记:核心板 电路原理与驱动编程

文章目录: 一:LED灯操作 1.LED灯的点亮和熄灭 延迟闪烁 main.c led.c led.h BitAction枚举 2.LED呼吸灯(灯的强弱交替变化) main.c delay.c 3.按键控制LED灯 key.h key.c main.c 二:FLASH读写程序(有…

【雕爷学编程】MicroPython动手做(02)——尝试搭建K210开发板的IDE环境4

7、使用串口工具 (1)连接硬件 连接 Type C 线, 一端电脑一端开发板 查看设备是否已经正确识别: 在 Windows 下可以打开设备管理器来查看 如果没有发现设备, 需要确认有没有装驱动以及接触是否良好 (2&a…

华为数通HCIA-ARP(地址解析协议)详细解析

地址解析协议 (ARP) ARP (Address Resolution Protocol)地址解析协议: 根据已知的IP地址解析获得其对应的MAC地址。 ARP(Address Resolution Protocol,地址解析协议)是根据IP地址获取数据链路层地址的一个…

Android安卓实战项目(5)---完整的健身APP基于安卓(源码在文末)可用于比赛项目或者作业参考中

Android安卓实战项目(5)—完整的健身APP(源码在文末🐕🐕🐕)可用于比赛项目 一.项目运行介绍 1.大致浏览 【bilibili视频】 https://www.bilibili.com/video/BV1uX4y177iR/? (1&…

【css】nth-child选择器实现表格的斑马纹效果

nth-child() 选择器可以实现为所有偶数&#xff08;或奇数&#xff09;的表格行添加css样式&#xff0c;even&#xff1a;偶数&#xff0c;odd&#xff1a;奇数。 代码&#xff1a; <style> table {border-collapse: collapse;width: 100%; }th, td {text-align: cente…

手机python编程软件怎么用,手机python编程软件下载

大家好&#xff0c;小编来为大家解答以下问题&#xff0c;手机python编程软件保存的代码在哪里&#xff0c;手机python编程软件怎么运行&#xff0c;现在让我们一起来看看吧&#xff01; 原标题&#xff1a;盘点几个在手机上可以用来学习编程的软件 前天在悟空问答的时候&#…

SpringCloud深入理解 | 生产者、消费者

&#x1f497;wei_shuo的个人主页 &#x1f4ab;wei_shuo的学习社区 &#x1f310;Hello World &#xff01; SpringCloud Spring Cloud是一组用于构建分布式系统和微服务架构的开源框架和工具集合。它是在Spring生态系统的基础上构建的&#xff0c;旨在简化开发人员构建分布式…

牛客网Verilog刷题——VL55

牛客网Verilog刷题——VL55 题目答案 题目 请用Verilog实现4位约翰逊计数器&#xff08;扭环形计数器&#xff09;&#xff0c;计数器的循环状态如下&#xff1a;   电路的接口如下图所示&#xff1a; 输入输出描述&#xff1a; 信号类型输入/输出位宽描述clkwireInput1系统…

【计算机网络】NAT及Bridge介绍

OSI七层模型 七层模型介绍及举例 为通过网络将人类可读信息通过网络从一台设备传输到另一台设备&#xff0c;必须在发送设备沿 OSI 模型的七层结构向下传输数据&#xff0c;然后在接收端沿七层结构向上传输数据。 数据在 OSI 模型中如何流动 库珀先生想给帕尔梅女士发一封电…

蓝牙资讯|苹果智能戒指专利曝光,可与苹果智能设备进行交互

根据美国商标和专利局&#xff08;USPTO&#xff09;公示的清单&#xff0c;苹果获得了一项智能戒指专利&#xff0c;可以作为 MacBook、电视、AirPods、智能眼镜和 iPhone 等设备的输入交互设备。 苹果在专利中展示了 16 种智能戒指的交互方式&#xff0c;其中图 2 展示了该…

【Chat GPT】用 ChatGPT 运行 Python

前言 ChatGPT 是一个基于 GPT-2 模型的人工智能聊天机器人&#xff0c;它可以进行智能对话&#xff0c;同时还支持 Python 编程语言的运行&#xff0c;可以通过 API 接口进行调用。本文将介绍如何使用 ChatGPT 运行 Python 代码&#xff0c;并提供一个实际代码案例。 ChatGPT …

css实现文字颜色渐变+阴影

效果 代码 <div class"top"><div class"top-text" text"总经理驾驶舱">总经理驾驶舱</div> </div><style lang"scss" scoped>.top{width: 100%;text-align: center;height: 80px;line-height: 80px;fo…