微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破
微软亚洲研究院
2015年2月11日
 

本文翻译自:Microsoft Researchers' Algorithm Sets ImageNet Challenge Milestone

一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努力着,但取得进展的过程却一直如马拉松竞赛般漫长而艰辛。近期,微软亚洲研究院视觉计算组实现的突破让他们成为了这场竞赛的最新领跑者。该团队所开发的基于深度卷积神经网络(CNN)的计算机视觉系统,在ImageNet 1000挑战中首次超越了人类进行对象识别分类的能力。

微软研究团队在题为“Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification”的论文中指出,他们的系统在ImageNet 2012分类数据集中的错误率已降低至4.94%。此前同样的实验中,人眼辨识的错误率大概为5.1%。这个数据集包含约120万张训练图像、5万张验证图像和10万张测试图像,分为1000个不同的类别。微软研究员表示:“据我们所知,我们的研究成果是这项视觉识别挑战中第一个超越人类视觉能力的计算机系统。”

该研究团队由微软亚洲研究院研究员孙剑、何恺明以及来自西安交通大学和中国科学技术大学的实习生张祥雨和任少卿组成。

孙剑已在微软亚洲研究院工作了十二年,现任视觉计算组首席研究员。此前,他在西安交通大学获得了电气工程专业学士、硕士及博士学位。2001年,孙剑曾是沈向洋博士的学生。沈向洋目前担任微软全球执行副总裁,主管技术与研究,并且是微软亚洲研究院创始成员之一。这位因在计算机视觉及图像学领域建树卓著而当选IEEE Fellow(电气电子工程师学会院士)及ACM Fellow(美国计算机协会院士)的计算机科学家,对他昔日弟子所取得的成就感到非常自豪。

“孙剑和我在2001年和西安交通大学郑南宁教授一起做的第一个项目是利用置信传播(belief propagation)进行立体重建。孙剑第一个将贝叶斯置信传播用来解决立体视觉问题并取得了当时最好的效果。” 沈向洋对孙剑在微软所取得的成就倍感骄傲。“孙剑的很多研究成果都成功应用到了微软的核心产品中。而他在更深层神经网络方面最新研究成果的潜力让我尤为兴奋和期待。”

孙剑将团队取得的最新成果归功于以下两项关键突破:一是开发了适应性更强的非线性神经元,二是改进训练算法,使得神经网络更为强大。

微软研究员在论文中指出,修正神经元 (rectifier neuron)是近期将深度神经网络应用于计算机视觉挑战时取得成功的关键要素之一。

研究人员表示:“在本论文中,我们从两个方面对主要由修正神经元驱动的神经网络进行了研究。首先,我们生成了一种新的修正线性单元(ReLU),并将其称为参数化修正线性单元(PReLU)。该激活函数不仅可自适应获取修正参数,还可提高计算精度,且所需额外计算成本几乎可以忽略不计。其次,我们研究了深度修正模型的训练难度。我们通过对修正线性单元(即ReLU/PReLU)的非线性特征进行直接建模,推导出一种符合理论的初始化方法,并直接从头开始训练网络,将其应用于深度模型(例如,具有30个带权层的模型)的收敛过程。这为我们探索功能更强大的网络体系结构提供了更多的灵活性。”

该研究团队虽然对其算法超越人类视觉识别极限感到兴奋不已,但与该领域的其他研究人员一样,研究团队成员也强调,计算机视觉目前从根本上仍无法与人类视觉相比。计算机系统在识别物体、理解图像上下文及场景高级信息等领域仍面临诸多挑战。

 “虽然我们的算法基于该特定的数据集得出了极为理想的结果,但这并不表明在对象识别领域机器视觉普遍优于人类视觉。某些对于人类来说轻而易举的基本对象类别的识别,机器识别仍然存在明显错误。尽管如此,我们的研究结果表明机器算法在众多视觉识别任务上具有巨大的发展潜力。”

 “人类可以毫不费力地区分出一只羊和一头牛。但计算机在执行这些简单任务时却不尽完美,”孙剑解释道。“但是,当涉及到不同品种的羊的区分时,计算机可超越人类。通过训练,计算机可观察图像的细节、纹理、形状及环境,并发现人类无法察觉出的区别。”

微软研究团队的工作并不仅仅局限于基础研究,其多项成果已被应用到微软的产品和服务中,包括必应图片搜索及微软云存储解决方案OneDrive。在近期的一篇博文中,微软OneDrive项目经理Douglas Pearce介绍了 OneDrive自动识别照片内容的功能。

“OneDrive会自动为用户上传的照片创建标签,比如人、狗、沙滩、落日等等,使用户借助标签能够更轻松地寻找到自己的图片。有了这项功能,我们向演示项目中添加照片、与家人重温特殊回忆,或与Facebook好友分享重要时刻就变得轻而易举。”Pearce如是说。

想要了解此项技术背后原理的读者可阅读微软研究院去年发布的专题文章。该文章介绍了来自同一研究团队的研究成果,他们在保持准确性不变的条件下将深度学习目标检测系统加速了多达100倍。该团队的科研进展记录于题为“Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition”研究论文中。

 “微软亚洲研究院视觉计算研究组一直致力于推动计算机视觉研究的前沿发展,终极目标是使计算机能够模拟出人类的感知能力。我对研究组多年来所取得的成就深感自豪,他们不仅以高质量的论文取得了学术界的认可,而且通过将这些技术转化到了微软的多个核心产品中。”微软亚太研发集团主席兼微软亚洲研究院院长洪小文博士说道。

2010年,来自斯坦福大学、普林斯顿大学及哥伦比亚大学的科学家们启动大规模视觉识别挑战赛(Large Scale Visual Recognition Challenge),推动了计算机视觉识别挑战的持续发展。科技行业知名记者John Markoff于2014年8月在《纽约时报》上刊登文章指出,2014年计算机识别挑战的目标识别准确率几乎提升了一倍,图像分类错误率也减少了一半。最近,百度的研究人员在其论文中宣称,以ImageNet对象分类为基准,百度的计算机视觉系统实现了前五选5.33%的错误率。

关于计算机视觉的挑战仍在继续,今年的挑战赛将于12月启动。但这并不是孙剑、何恺明及其研究团队的关注重点。“我们的目标是在众多应用上开发出能与人类视觉媲美,甚至比人类更准确的计算机视觉系统,”孙剑说道。“如要实现这一目标,我们需要更多的训练数据和更加真实的测试场景。我们在必应、OneDrive和其他服务平台上的工作将帮助我们进一步改善算法的鲁棒性。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/58902.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

opencv 图像识别

opencv的目标是使计算机可以快速准确地从数字图像中提取和分析特征。它使用了许多新的算法和技术,例如改进的模板匹配、基于统计的特征分析以及深度学习等。opencv支持多种平台,包括 Windows、 MacOS、 Linux和 Android,开发者可以使用 OpenC…

人工智能-图像识别

图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单…

深度学习与图像识别 图像检测

主要做了基于深度学习的图像识别与检测的研究,下面是一些整理内容 1、深度学习的优势 (1)从统计,计算的角度看,DL特别适合处理大数据 a、用较为复杂的模型降低模型偏差 b、用大数据提升统计估计的准确度 c、用可扩展的…

图像识别

图像识别主要用到了两个第三方的iOS框架:OpenCV和TesseractOCR,OpenCV用来做图像处理,定位到身份证号码的区域,TesseractOCR则是对定位到的区域内的内容进行识别。 OpenCV中的一些简单的处理图像的方法:灰度处理、二…

tesseract -图像识别

20230306 下载链接:https://digi.bib.uni-mannheim.de/tesseract/ 如下选择最新的版本,这里我选择tesseract-ocr-w64-setup-5.3.0.20221222.exe 配置tesseract的环境变量 在用户变量path中,添加安装路径如:D:\Program Files\Tesse…

机器图像识别常用算法,图像对比识别技术

图像识别算法都有哪些 图像识别算法:1人脸识别类(Eigenface,Fisherface算法特别多),人脸检测类(j-v算法,mtcnn)2车牌识别类,车型识别类(cnn)3字符识别&#…

最新开源的图像识别算法来了!

Datawhale开源 方向:图像识别开源项目 人脸、车辆、人体属性、卡证、交通标识等经典图像识别能力,在我们当前数字化工作及生活中发挥着极其重要的作用。业内也不乏顶尖公司提供的可直接调用的API、SDK,但这些往往面临着定制化场景泛化效果不…

图像识别最好的算法,图片相似度识别算法

现在人脸识别最有效的算法是什么? 最好的人脸识别系统在理想情况下比人类识别的表现要好的多。但是一旦环境情况变糟,系统的表现就差强人意了。而计算机科学家们当然是非常想要开发出一种算法,在各种情况下都能够表现优异。 现在&#xff0…

图像识别技术OpenCV | C++版本

基础入门 图像与信号 图像 图像是人对视觉感知的物质再现。图像可以由光学设备获取,也可以人为创作。随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。因而,有些情况下”图像“一词实际上是指数字图像。图像相关的话…

主流深度学习OCR文字识别方法对比:Tesseract(LSTM)、CTPN+CRNN、Densenet

作者 | Raini 出品 | 北京图特摩斯科技有限公司 (www.thutmose.cn) 也是几个月前的项目了,由于手头事儿多,也已经转交给别的同事去继续优化。本博客仅做个简单的记录用。 这里是 Tesseract(LSTM)、CTPNCRN…

吐槽 Twitter 后,马斯克用 30 亿美元入股 Twitter,成为最大股东

作者 | 苏宓 出品 | CSDN(ID:CSDNnews) 曾一年登上 74 次热搜、曾考虑辞职做全职“网红”,掌握流量密码的硅谷“钢铁侠”埃隆马斯克算是把互联网玩得明明白白。 这不,这两天在国内外热榜、科技网站的头版头条再现马斯克…

chatgpt赋能python:Python怎样使用断言?

Python怎样使用断言? 在Python中,断言是一种在程序执行中自动检查程序是否具有给定条件的方法。在程序的开发和调试过程中,通过正确使用断言,可以增强代码的可靠性并提升编程效率。 Python中的断言语法 Python中的断言语法非常…

chatgpt赋能python:如何撤销Python代码的错误

如何撤销Python代码的错误 Python是一种优秀的编程语言,但每个程序员都会面临代码错误的问题。在Python中,难免会出现语法错误、逻辑错误或运行时错误。因此,本文将介绍一些常见的问题,并提供一些解决方法。 1. 语法错误 语法错…

chatgpt赋能python:Python查错技巧:快速定位和解决代码错误

Python查错技巧:快速定位和解决代码错误 作为一名10年Python编程经验的工程师,我深知在Python编程过程中,查错是一个必须掌握的技能。无论你是初学者还是资深工程师,在Python编程过程中,都会遇到各种各样的问题&#…

chatgpt赋能python:Python编写错误怎么改?

Python编写错误怎么改? 为什么需要改错误? 在Python编程中,错误是不可避免的。它们可能会使你的程序崩溃或者在运行时出现奇怪的行为。虽然有时候错误是你打的故意的代码,但是大多数情况下它们是意外的、不必要的,并…

chatgpt赋能python:PythonRepair:针对代码错误的Python自动修复工具

Python Repair: 针对代码错误的Python自动修复工具 介绍 Python是一种著名的高级编程语言,许多开发人员使用它来创建各种类型的程序。在开发这些程序的过程中,许多人都遇到过代码错误的问题。这些错误可能会耗费大量时间和精力来诊断和修复。在这种情况…

chatgpt赋能python:如何正确处理Python代码中的错误提示

如何正确处理Python代码中的错误提示 Python是一种非常广泛使用的编程语言,因其易读性和简洁性而备受青睐。在编写代码时,错误提示很常见,这些错误提示含有重要信息,可以帮助我们找到代码中的问题。但是,如何正确处理…

chatgpt赋能python:Python出现错误的解决方案

Python出现错误的解决方案 Python是一门广泛应用于数据科学、网站开发和人工智能领域的强大编程语言。它的简洁性、易读性和高效性吸引了越来越多的开发者。不过,就像任何一门编程语言一样,Python也会出现错误。这篇文章将介绍Python出现错误的常见原因…

chatgpt赋能python:Python如何删除错误代码

Python如何删除错误代码 Python是一种简单易学且功能强大的编程语言,但在编写代码时难免会出现错误。在这篇文章中,我们将介绍如何找到和删除Python代码中的错误,并提供一些实用技巧来避免这些错误。 检查错误代码 当您发现Python代码无法…

chatgpt赋能python:Python错误处理:概述

Python错误处理:概述 在Python编程中,错误处理是非常重要的一环。错误可能在程序执行的任何时刻出现,并可能导致程序崩溃或产生不可预期的结果。在这篇文章中,我们将介绍Python中的错误处理机制,包括常见的错误类型、…