CNN与图像识别

将我自己在github pages上的文章转载到这里。

  • 卷积神经网络与图像识别背景
    • LeNet概述
    • ImageNet大规模图像识别挑战赛
  • 卷积与图像处理
    • 卷积的定义
    • 图像卷积的物理意义
  • LeNet详解
  • 手写数字识别过程可视化
  • 神经网络中的“神经元”和“权重”在哪里?

卷积神经网络与图像识别背景

LeNet概述

LeNet是最早用于深度学习了领域的卷积神经网络之一。Yann LeCun的这一杰作得名于他自1988年以来的系列成功迭代。彼时LeNet架构还主要被用于识别邮政编码等任务。LeNet的基本架构如下:

LeNet Workflow

近几年已经出现了很多建立在LeNet之上的新架构,但是基本概念还是来自于LeNet。

卷积神经网络始自1990年代起,我们已经认识了最早的LeNet,其他一些很有影响力的架构列举如下:

  • 1990s至2012:从90年代到2010年代早期,卷积神经网络都处于孵化阶段。随着数据量增大和计算能力提高,卷积神经网络能搞定的问题也越来越有意思了。
  • AlexNet(2012):2012年,Alex Krizhevsky发布了AlexNet,是LeNet的更深、更宽版本,并且大比分赢得了当年的ImageNet大规模图像识别挑战赛(ILSVRC)。这是一次非常重要的大突破,现在普及的卷积神经网络应用都要感谢这一壮举。
  • ZF Net(2013):2013年的ILSVRC赢家是Matthew Zeiler和Rob Fergus的卷积网络,被称作ZF Net,这是调整过架构超参数的AlexNet改进型。
  • GoogleNet(2014):2014的ILSVRC胜者是来自Google的Szegedy et al.。其主要贡献是研发了Inception Module,它大幅减少了网络中的参数数量(四百万,相比AlexNet的六千万)
  • VGGNet(2014):当年的ILSVRC亚军是VGGNet,突出贡献是展示了网络的深度(层次数量)是良好表现的关键因素。
  • ResNet(2015): Kaiming He研发的Residual Network是2015年的ILSVRC冠军,也代表了卷积神经网络的最高水平,同时还是实践的默认选择(2016年5月)。
  • DenseNet(2016年8月): 由Gao Huang发表,Densely Connected Convolutional Network的每一层都直接与其他各层前向连接。DenseNet已经在五个高难度的物体识别基础集上,显式出非凡的进步。

ImageNet大规模图像识别挑战赛

参考一个时代的终结:ImageNet竞赛2017是最后一届,WebVision 竞赛或接。

上面的变种卷积神经网络基本上都来自一项比赛(DenseNet除外):ImageNet大规模图像识别挑战赛(ImageNet Large Scale Visual Recognition Competition,ILSVRC)。

ILSVRC是基于ImageNet图像库的一个图像识别比赛。ImageNet可以说是计算机视觉研究人员进行大规模物体识别和检测时,最先想到的视觉大数据来源。ImageNet 数据集最初由斯坦福大学李飞飞等人在CVPR 2009的一篇论文中推出,并被用于替代 PASCAL数据集(后者在数据规模和多样性上都不如 ImageNet)和LabelMe数据集(在标准化上不如ImageNet)。

ImageNet不但是计算机视觉发展的重要推动者,也是这一波深度学习热潮的关键驱动力之一。截至2016年,ImageNet中含有超过1500万由人手工注释的图片网址,也就是带标签的图片,标签说明了图片中的内容,超过2.2万个类别。

CVPR2017研讨会“超越ILSVRC”将宣布今年是 ImageNet 竞赛正式组织的最后一年,2016年ILSVRC 的图像识别错误率已经达到约2.9%,不仅远远超越人类(5.1%),今后再进行这类竞赛意义也不大了。这无疑标志着一个时代的结束,但也是新征程的开始:未来,计算机视觉的重点在图像理解,而作为ILSVRC替代者的候选人之一是苏黎世理工大学和谷歌等联合提出的 WebVision Challenge,也将于CVPR2017同期举办,内容侧重于学习和理解网络数据。

历届ILSVRC的作品,可以参考ILSVRC历届冠军论文笔记,包含模型框架和识别率等。

卷积与图像处理

卷积的定义

convolution definition demo

参考Convolution。

图像卷积的物理意义

卷积矩阵也叫“滤波器”、“核”或“特征探测器”。

image convolution

Image Filter

参考Kernel (image processing)。

LeNet详解

参考Basics of Convolutional Neural network (CNN)。

  1. Convolutional Layer
  2. Pooling Layer
  3. Fully Connected Layer
  4. Understanding Training Process

An Intuitive Explanation of Convolutional Neural Networks的讲解也不错,中文版在这里。

手写数字识别过程可视化

cnn visualizatio

官方网站:
http://scs.ryerson.ca/~aharley/vis/

3D可视化:
http://scs.ryerson.ca/~aharley/vis/conv/

2D可视化:
http://scs.ryerson.ca/~aharley/vis/conv/flat.html

相关论文:
http://scs.ryerson.ca/~aharley/vis/harley_vis_isvc15.pdf

神经网络中的“神经元”和“权重”在哪里?

convolution and weights

各个卷机滤波器的里面的每个位置的值,即是我们需要训练的权重(卷积滤波器的尺寸是需要我们提前指定好的),每个像素对应于一个神经元。

其中神经网络的基本概念可以参考TensorFlow Playground。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/58906.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

用CPU 0.2秒轻松识别十万类,超强图像识别系统PP-ShiTu重磅发布

说到图像识别,有些人可能会一头雾水,其实图像识别早已经成熟地应用在了各行各业。比如,正在进行中的双十一全民剁手节,相信很多小伙伴们都在某宝上解锁过以图搜图购物;越来越先进的自动驾驶道路街景识别;工…

微软语音识别

广告关闭 2017年12月,云社区对外发布,从最开始的技术博客到现在拥有多个社区产品。未来,我们一起乘风破浪,创造无限可能。 【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在switchboard语音识别…

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破

微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破 微软亚洲研究院 2015年2月11日 本文翻译自:Microsoft Researchers Algorithm Sets ImageNet Challenge Milestone 一直以来,计算科学家一直在为建立世界上最精确的计算机视觉系统孜孜不倦地努…

opencv 图像识别

opencv的目标是使计算机可以快速准确地从数字图像中提取和分析特征。它使用了许多新的算法和技术,例如改进的模板匹配、基于统计的特征分析以及深度学习等。opencv支持多种平台,包括 Windows、 MacOS、 Linux和 Android,开发者可以使用 OpenC…

人工智能-图像识别

图像识别技术是信息时代的一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息。随着计算机技术的发展,人类对图像识别技术的认识越来越深刻。图像识别技术的过程分为信息的获取、预处理、特征抽取和选择、分类器设计和分类决策。简单…

深度学习与图像识别 图像检测

主要做了基于深度学习的图像识别与检测的研究,下面是一些整理内容 1、深度学习的优势 (1)从统计,计算的角度看,DL特别适合处理大数据 a、用较为复杂的模型降低模型偏差 b、用大数据提升统计估计的准确度 c、用可扩展的…

图像识别

图像识别主要用到了两个第三方的iOS框架:OpenCV和TesseractOCR,OpenCV用来做图像处理,定位到身份证号码的区域,TesseractOCR则是对定位到的区域内的内容进行识别。 OpenCV中的一些简单的处理图像的方法:灰度处理、二…

tesseract -图像识别

20230306 下载链接:https://digi.bib.uni-mannheim.de/tesseract/ 如下选择最新的版本,这里我选择tesseract-ocr-w64-setup-5.3.0.20221222.exe 配置tesseract的环境变量 在用户变量path中,添加安装路径如:D:\Program Files\Tesse…

机器图像识别常用算法,图像对比识别技术

图像识别算法都有哪些 图像识别算法:1人脸识别类(Eigenface,Fisherface算法特别多),人脸检测类(j-v算法,mtcnn)2车牌识别类,车型识别类(cnn)3字符识别&#…

最新开源的图像识别算法来了!

Datawhale开源 方向:图像识别开源项目 人脸、车辆、人体属性、卡证、交通标识等经典图像识别能力,在我们当前数字化工作及生活中发挥着极其重要的作用。业内也不乏顶尖公司提供的可直接调用的API、SDK,但这些往往面临着定制化场景泛化效果不…

图像识别最好的算法,图片相似度识别算法

现在人脸识别最有效的算法是什么? 最好的人脸识别系统在理想情况下比人类识别的表现要好的多。但是一旦环境情况变糟,系统的表现就差强人意了。而计算机科学家们当然是非常想要开发出一种算法,在各种情况下都能够表现优异。 现在&#xff0…

图像识别技术OpenCV | C++版本

基础入门 图像与信号 图像 图像是人对视觉感知的物质再现。图像可以由光学设备获取,也可以人为创作。随着数字采集技术和信号处理理论的发展,越来越多的图像以数字形式存储。因而,有些情况下”图像“一词实际上是指数字图像。图像相关的话…

主流深度学习OCR文字识别方法对比:Tesseract(LSTM)、CTPN+CRNN、Densenet

作者 | Raini 出品 | 北京图特摩斯科技有限公司 (www.thutmose.cn) 也是几个月前的项目了,由于手头事儿多,也已经转交给别的同事去继续优化。本博客仅做个简单的记录用。 这里是 Tesseract(LSTM)、CTPNCRN…

吐槽 Twitter 后,马斯克用 30 亿美元入股 Twitter,成为最大股东

作者 | 苏宓 出品 | CSDN(ID:CSDNnews) 曾一年登上 74 次热搜、曾考虑辞职做全职“网红”,掌握流量密码的硅谷“钢铁侠”埃隆马斯克算是把互联网玩得明明白白。 这不,这两天在国内外热榜、科技网站的头版头条再现马斯克…

chatgpt赋能python:Python怎样使用断言?

Python怎样使用断言? 在Python中,断言是一种在程序执行中自动检查程序是否具有给定条件的方法。在程序的开发和调试过程中,通过正确使用断言,可以增强代码的可靠性并提升编程效率。 Python中的断言语法 Python中的断言语法非常…

chatgpt赋能python:如何撤销Python代码的错误

如何撤销Python代码的错误 Python是一种优秀的编程语言,但每个程序员都会面临代码错误的问题。在Python中,难免会出现语法错误、逻辑错误或运行时错误。因此,本文将介绍一些常见的问题,并提供一些解决方法。 1. 语法错误 语法错…

chatgpt赋能python:Python查错技巧:快速定位和解决代码错误

Python查错技巧:快速定位和解决代码错误 作为一名10年Python编程经验的工程师,我深知在Python编程过程中,查错是一个必须掌握的技能。无论你是初学者还是资深工程师,在Python编程过程中,都会遇到各种各样的问题&#…

chatgpt赋能python:Python编写错误怎么改?

Python编写错误怎么改? 为什么需要改错误? 在Python编程中,错误是不可避免的。它们可能会使你的程序崩溃或者在运行时出现奇怪的行为。虽然有时候错误是你打的故意的代码,但是大多数情况下它们是意外的、不必要的,并…

chatgpt赋能python:PythonRepair:针对代码错误的Python自动修复工具

Python Repair: 针对代码错误的Python自动修复工具 介绍 Python是一种著名的高级编程语言,许多开发人员使用它来创建各种类型的程序。在开发这些程序的过程中,许多人都遇到过代码错误的问题。这些错误可能会耗费大量时间和精力来诊断和修复。在这种情况…

chatgpt赋能python:如何正确处理Python代码中的错误提示

如何正确处理Python代码中的错误提示 Python是一种非常广泛使用的编程语言,因其易读性和简洁性而备受青睐。在编写代码时,错误提示很常见,这些错误提示含有重要信息,可以帮助我们找到代码中的问题。但是,如何正确处理…