MIT的研究人员最近开发了一种名为“FeatUp”的新算法,这一突破性技术为计算机视觉领域带来了高分辨率的洞察力

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

想象一下,你短暂地注视着繁忙的街道,然后试图根据记忆绘制你所看到的场景。大多数人能够大致绘制出车辆、人和斑马线等主要物体的位置,但几乎没有人能够以像素级完美的精度绘制出每一个细节。对于大多数现代计算机视觉算法来说,情况也是如此:它们擅长捕捉场景的高层次细节,但在处理信息时会丢失细粒度的细节。

现在,麻省理工学院(MIT)的研究人员创建了一个名为“FeatUp”的系统,允许算法同时捕获场景的高层次和低层次细节——几乎就像是计算机视觉的Lasik眼科手术。

当计算机通过查看图像和视频学会“看”时,它们通过所谓的“特征”构建对场景中物体的“理念”。为了创建这些特征,深度网络和视觉基础模型将图像分解成一个个小方格,并将这些方格作为一个组处理,以确定照片中正在发生的事情。每个小方格通常由16到32个像素组成,因此这些算法的分辨率远小于它们处理的图像。在试图总结和理解照片时,算法会丢失大量的像素清晰度。

FeatUp算法可以阻止这种信息损失,并提升任何深度网络的分辨率,而不会影响速度或质量。这使研究人员能够快速轻松地提高任何新的或现有算法的分辨率。例如,尝试解释肺癌检测算法的预测,目标是定位肿瘤。在使用类似类激活映射(CAM)的方法解释算法之前应用FeatUp,可以显著更详细地(16-32倍)查看模型可能定位的肿瘤位置。

FeatUp不仅帮助从业者理解他们的模型,而且还可以改善各种不同的任务,如物体检测、语义分割(为图像中的像素与对象标签赋予标签)和深度估计。通过提供更准确的高分辨率特征,它实现了这一点,这些特征对于构建从自动驾驶到医学成像的视觉应用至关重要。

“所有计算机视觉的本质都在于这些从深度学习架构的深处涌现出的深刻、智能的特征。现代算法的一大挑战是它们将大型图像缩小为非常小的‘智能’特征网格,获得智能洞察但失去更细微的细节,”麻省理工学院电气工程与计算机科学博士生、MIT计算机科学与人工智能实验室(CSAIL)附属成员,以及该项目论文共同首席作者之一的Mark Hamilton说。“FeatUp帮助实现了两全其美的情况:具有原始图像分辨率的高度智能表现。这些高分辨率特征显著提高了从增强物体检测到改善深度预测的一系列计算机视觉任务的性能,通过高分辨率分析提供了对网络决策过程的更深入理解。”

团队指出,PyTorch中可用的标准工具无法满足他们的需求,并在他们寻求快速有效解决方案的过程中引入了一种新类型的深度网络层。他们的自定义层,一种特殊的联合双边上采样操作,在PyTorch中的朴素实现中效率提高了100倍以上。团队还展示了这个新层可以改进包括语义分割和深度预测在内的多种不同算法。这一层提高了网络处理和理解高分辨率细节的能力,给任何使用它的算法带来了显著的性能提升。

“另一个应用是所谓的小物体检索,我们的算法允许精确定位物体。例如,在杂乱的道路场景中,通过FeatUp丰富的算法可以看到微小物体,如交通锥、反光器、灯和坑洞,而它们的低分辨率同类则失败了。这展示了它将粗糙特征增强为精细信号的能力,”加利福尼亚大学伯克利分校的博士生Stephanie Fu '22, MNG '23,也是新FeatUp论文的另一位共同首席作者说。“这对于时间敏感的任务尤为关键,如在杂乱的高速公路上定位交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高这类任务的准确性,而且可能还会使这些系统更可靠、可解释和值得信赖。”

社区及其它领域内的潜在广泛应用,类似于数据增强实践。“目标是将这种方法作为深度学习中的基本工具,丰富模型以更细致的细节感知世界,而不会带来传统高分辨率处理的计算效率低下,”Fu说。

“FeatUp代表了向着使视觉表示真正有用迈出的美妙进步,通过以完整图像分辨率产生它们,”康奈尔大学计算机科学教授Noah Snavely说,他没有参与这项研究。“在过去几年中,学习到的视觉表示变得非常好,但它们几乎总是以非常低的分辨率产生——你可能会输入一个漂亮的全分辨率照片,然后得到一个微小的、邮票大小的特征网格。如果你想在产生全分辨率输出的应用中使用这些特征,这就是一个问题。FeatUp以一种创造性的方式解决了这个问题,将超分辨率中的经典想法与现代学习方法相结合,产生了美丽的、高分辨率的特征图。”

“我们希望这个简单的想法可以有广泛的应用。它提供了我们之前认为只能是低分辨率的图像分析的高分辨率版本,”麻省理工学院电气工程与计算机科学教授、CSAIL成员的高级作者William T. Freeman说。

首席作者Fu和Hamilton与麻省理工学院的博士生Laura Brandt SM '21、Axel Feldmann SM '21以及Zhoutong Zhang SM '21, PhD '22一起,他们都是MIT CSAIL的现任或前任成员。他们的研究部分得到了国家科学基金会研究生奖学金、国家科学基金会和国家情报总监办公室的支持,以及美国空军研究实验室和美国空军人工智能加速器的支持。该小组将在5月份的国际学习表示会议上展示他们的工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/281844.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【目标检测】2. RCNN

接上篇 【目标检测】1. 目标检测概述_目标检测包括预测目标的位置吗?-CSDN博客 一、前言 CVPR201 4经典paper:《 Rich feature hierarchies for accurate object detection and semantic segmentation》,https://arxiv.org/abs/1311.2524, 这篇论文的算法思想被称…

静态路由实验(HCIP部分)

1、拓扑信息 2、需求分析 3、IP规划 4、配置截图 5、测试 1、拓扑信息 2、需求分析 1、 R6为isp,接口IP地址均为公有地址;该设备只能配置IP地址,之后不能再对其进行其他任何配置; 分析: R6只需配置一个环回和链路物理接口IP即可 2 、R1-R5为…

pytorch多层感知机

目录 1. 多层感知机2. 多层感知机loss梯度推导3. pytorch示例 1. 多层感知机 有多个输入节点、多个中间节点和多个输出节点 2. 多层感知机loss梯度推导 3. pytorch示例

Go语言gin框架中加载html/css/js等静态资源

Gin框架没有内置静态文件服务,但可以使用gin.Static或gin.StaticFS中间件来提供静态文件服务。 效果图如下: 一、gin 框架加载 Html 模板文件的方法 方式1:加载单个或多个html文件,需要指明具体文件名 r.LoadHTMLFiles("vie…

python基础——字典【特点,定义,引用操作,pop,clear,keys,items】

📝前言: 今天我们来学习一下python中的常见数据容器之一——字典: 1,字典的特点及定义 2,字典的引用操作 3,字典的常见操作方法 🎬个人简介:努力学习ing 📋个人专栏&…

功能齐全的免费 IDE Visual Studio 2022 社区版

面向学生、开放源代码和单个开发人员的功能齐全的免费 IDE 下载地址 Visual Studio 2022 社区版 - 下载最新的免费版本 Visual Studio 2022 Community Edition – Download Latest Free Version 准备安装 选择需要安装的程序 安装进行中 使用C学习程序设计相关知识并培养编程…

C# WPF编程-布局

C# WPF编程-布局 布局WPF布局原则布局过程布局容器布局属性Border控件StackPanel布局WrapPanel布局DockPanel布局Grid布局UniformGrid布局Canvas布局 布局 WPF布局原则 WPF窗口只能包含单个元素。为在WPF窗口中放置多个元素并创建更贴近实用的用户界面,需要在窗口…

【Android】【Bluetooth Stack】蓝牙电话协议分析(超详细)

1. 精讲蓝牙协议栈(Bluetooth Stack):SPP/A2DP/AVRCP/HFP/PBAP/IAP2/HID/MAP/OPP/PAN/GATTC/GATTS/HOGP等协议理论 2. 欢迎大家关注和订阅,【蓝牙协议栈】和【Android Bluetooth Stack】专栏会持续更新中.....敬请期待&#xff01…

MyBatis框架简述

作用 降低开发人员使用JDBC的难度降低开发人员进行Dao层的开发难度 MyBatis本质上就是对JDBC的封装,通过MyBatis完成CRUD。MyBatis在三层架构中负责持久层的,属于持久层框架。MyBatis的发展历程:【引用百度百科】 MyBatis本是apache的一个开…

图书推荐|高性能Linux网络编程核心技术揭秘

实战基于libevent 的FTP服务器、基于epoll的高并发聊天服务器、基于DPDK的应用案例 本书简介 本书详解高性能Linux网络编程的核心技术及DPDK框架,剖析Nginx高性能服务器架构,实战基于libevent 的FTP服务器、基于epoll的高并发聊天服务器、基于DPDK的应用…

Docker网桥、DockerFile自定义镜像、DockerCompose工具(二)

这里写目录标题 1、网桥1.1、网络相关操作1.1.1、创建网络1.1.2、列出网络1.1.3、加入网络1.1.4、查看网络详情1.1.5、删除网络 2、Dockerfile自定义镜像2.1、镜像结构2.2、Dockerfile语法2.2.1、概述2.2.2、快速入门2.2.1、FROM2.2.2、CMD2.2.3、ENV2.2.4、WORKDIR2.2.5、run2…

关于汽车中网改装需要报备吗?(第二天)

车联网改造需要申报吗? 今天2022年10月20日,小编就给大家介绍一下车联网改装是否需要申报的相关知识。 让我们来看看。 汽车格栅改装无需申报。 这种年检可以直接通过。 您不必担心,因为汽车格栅对于实车的外观来说并不陌生,因此…

设计编程网站集:生活部分:饮食+农业,植物(暂记)

这里写目录标题 植物相关综合教程**大型植物:****高大乔木(Trees):** 具有坚硬的木质茎,通常高度超过6米。例如,橡树、松树、榉树等。松树梧桐 **灌木(Shrubs):** 比乔木…

flutter使用记录(vscode开发)

1.Gradle-7.6.3-all.zip 下载失败 编辑项目中的 gradle/wrapper/gradle-wrapper.properties 文件,并设置 distributionUrl 的值为可靠的镜像站点,如下所示: distributionUrlhttps\://services.gradle.org/distributions/gradle-7.6.3-all.z…

HarmonyOS ArkTS 基础组件

目录 一、常用组件 二、文本显示(Text/Span) 2.1 创建文本 2.2 属性 2.3 添加子组件(Span) 2.4 添加事件 三、按钮(Button) 3.1 创建按钮 3.2 设置按钮类型 3.3 悬浮按钮 四、文本输入(TextInput/TextArea)…

个人网站制作 Part 14 添加网站分析工具 | Web开发项目

文章目录 👩‍💻 基础Web开发练手项目系列:个人网站制作🚀 添加网站分析工具🔨使用Google Analytics🔧步骤 1: 注册Google Analytics账户🔧步骤 2: 获取跟踪代码 🔨使用Vue.js&#…

分库分表场景下多维查询解决方案(用户+商户)

在采用分库分表设计时,通过一个PartitionKey根据散列策略将数据分散到不同的库表中,从而有效降低海量数据下C端访问数据库的压力。这种方式可以缓解单一数据库的压力,提升了吞吐量,但同时也带来了新的问题。对于B端商户而言&#…

权限提升-Web权限提升篇划分获取资产服务后台系统数据库管理相互转移

知识点 1、权限提升转移-分类&高低&场景 2、Web权限提升及转移-后台&数据库 3、后台权限及转移-转移对象&后台分类 章节点: 1、Web权限提升及转移 2、系统权限提升及转移 3、宿主权限提升及转移 4、域控权限提升及转移 基础点 0、为什么我们要学…

B004-springcloud alibaba 服务容错 Sentinel

目录 高并发带来的问题服务雪崩效应常见容错方案常见的容错思路隔离超时限流熔断降级 常见的容错组件 Sentinel入门什么是Sentinel微服务项目集成Sentinel核心库安装Sentinel控制台实现一个接口的限流 Sentinel的概念和功能基本概念重要功能 Sentinel规则流控规则三种流控模式三…

verilog设计-CDC:单bit脉冲快时钟域到慢时钟域

一、前言 当单bit信号由快时钟域传递给慢时钟域时,快时钟域的异步信号最小可为快时钟信号的一个时钟周期脉冲,快时钟域的单时钟周期脉冲长度小于慢时钟域的时钟周期,很有可能该脉冲信号在慢时钟域的两个时钟上升沿之间,导致该脉冲…