上节回顾
上节课,我们简单了解了图像识别和深度学习的相关知识。
快速回顾一下吧~
A图像识别是以图像的主要特征为基础的。
B. 图像分辨率决定图像的质量。
C. 像素是图像中的最小单位
D. 在图像识别的原理上,计算机和人类在本质上没有区别
E.人工智能的核心驱动力是机器学习, 而深度学习是机器学习的一个特定分支。
这节课,我们将更深入地了解:在图像识别领域,应用最为广泛的深度学习算法--卷积神经网络。并为实现“电脑图像的智能识别和自动分类”做一些前期准备。
深度学习的许多研究成果,离不开对大脑认知原理的研究,尤其是视觉原理的研究。在上面提到的典型算法中,卷积神经网络CNN就是受到人类视觉神经系统的启发,最擅长进行图像处理的一种算法。
输入层、输出层比较容易理解。在图像识别中,输入层输入的是图像,输出层输出的是识别结果。
那什么是隐含层呢?隐含层主要由卷积层、池化层和全连接层3类常见的结构组成。连接顺序通常为:卷积层-池化层-全连接层
比如,对这样⼀张 1000×1000 分辨率的图像,需要处理的参数就高达上百万个。这么⼤量的数据处理起来⾮常消耗资源,⽽且这还只是⼀张不算太⼤的图⽚。
池化层将复杂问题简单化,把大量参数降维成少量参数,再做处理。因为在大部分场景下,降维并不会影响结果。比如,将这样一张图像从1000像素缩⼩到200像素,并不会影响我们识别男孩还是女孩,机器也是如此。
- 卷积层能够提取图像中的局部特征
- 池化层能够⼤幅降低参数量级
- 大部分情况下,降维并不会影响识别结果
D当图像的位置或者角度发⽣了变化,CNN也能有效的识别出来是类似的图像。
这些不同的层次,有什么作用 🤔 ?
我们可以将卷积层和池化层看成图像自动提取特征的过程。在提取完成之后,仍然需要使用全连接层来完成分类任务。
深度学习需要输入的图像信息非常庞大。只有经过卷积层和池化层降维过的数据,全连接层才能”跑得动”。
卷积神经网络是一个多层结构
卷积神经网络的结构由输入层、隐含层和输出层组成
隐含层的结构由卷积层、池化层,全连接层组成
卷积神经网络最常用于图像处理
卷积神经网络的应用
卷积神经网络在图像领域的应用处处可见,比如:
1. 图像分类、检索
一项基础应用,能节省大量的人工成本,将图像进行有效的分类。
典型场景:图像搜索
橙色软件搜索同款用到的图像搜索
2. 目标定位检测
在图像中定位目标,并确定目标的位置及大小。
典型场景:自动驾驶、安防、医疗
开车外出用到的行车记录仪
3. 目标分割
简单理解就是一个像素级的分类。
典型场景:视频后期加工、图像生成
P图用到的美图秀秀
4. 人脸识别
基于人的脸部特征信息进行身份识别的一种生物识别技术。
典型场景:安防、金融、生活
进出小区用到的人脸识别
5. 骨骼识别
识别身体的关键骨骼,以及追踪骨骼的动作。
典型场景:安防、电影、游戏、图像视频生成
互动游戏中实时评估人体姿态和动作轨迹的操作
面临的困难
既然卷积神经网络的应用如此广泛,我们能通过不停地加深网络,自己训练一款对图像处理表现更好的模型吗?现实往往没有这样简单。
我们以制造桌子为例:
木材就是数据,提供基础的素材;
制造桌子的流水线就是一套模型,其中包括了网络层数的设计,解决把木头变成桌子的问题;
工厂里的机器就是计算能力,机器越厉害,制造桌子的效率就越高,速度就越快。
模型设计
深度学习的“深”不仅代表着神经网络的层数之多,更进一步代表着模型参数之多。
但是网络的设计并不是简单的层数上的纵向堆叠,每一层的参数都需要不断反复的调试,投入大量的人力、物力和时间。
因此,绝大多数人只能使用现成的模型,而现成的模型往往又不能通用
数据
一个“见多识广”的模型,对实际问题的处理和表现才会更加准确。
这个过程可以分3步理解:
只有足够的数据作为深度学习的输入;
计算机才能学会以往只有人类才能理解的知识;
然后才能将这些知识应用到之前从来没有看见过的新数据上。
计算能力
大量的数据和参数需要大量的计算资源支持,因此越深越复杂的网络对计算资源的需求也越大。
即使一个简单的深度学习模型,跑一次数据的时间也短则数小时,长则数天,普通的电脑很难满足要求。
前面我们通过「情感倾向分析」这个接口,体验了在实际应用中,调用API的绝对优势。API的扩展性和灵活性是软件设计最美妙的艺术之一。在这里,我们同样采用这样的方式。
有了之前的基础,在这里,我们「接入百度智能云图像识别服务」只需3步:
a. 创建应用
b. 获取AppID、API Key和Secret Key
c. 导入和新建AipImageClassify
接下来,我们会完成这3步,做好实战准备。
在【创建应用】页面:
1. 为你的应用设定名称;
2. 领取接口的免费额度;
3. 对应用进行简短的描述;
4. 填写完毕后,选择【立即创建】完成操作。
b. 获取AppID、API Key和Secret Key
创建完成后,点击「查看应用详情」就可以看到AppID、API Key和Secret Key。
这是系统分配给用户的,均为字符串,用于标识用户,为访问做签名验证。
我们需要使用这三个ID来调用对应的API。
c. 导入和新建AipImageClassify
在上一个项目中,我们已经安装好了 Python SDK。
现在直接导入和新建AipImageClassify即可创建图像识别客户端。
创建图像识别客户端
代码的作用
AipImageClassify是图像识别的Python SDK客户端,为使用图像识别的开发人员提供了一系列的交互方法。
和AipNlp一样,在使用之前,我们需要创建图像识别客户端。
代码:
# 从aip中导入AipImageClassify
from aip import AipImageClassify
# 存储访问密钥信息,包括客户端ID、API接口验证序号和API接口密钥
APP_ID = "10252021"
API_KEY = "ZHe7788sh11GEjIAdEKeY"
SECRET_KEY = "JMMzHe7788BUSH1ZhEnM1YUEhh"
# 新建一个AipImageClassify,并赋值给变量client
client = AipImageClassify(APP_ID, API_KEY, SECRET_KEY)
# 输出client
print(client)
分析代码:
导入AipImageClassify
创建图像识别客户端,首先要导入AipImageClassify。
这里,通过from...import...,从aip中导入AipImageClassify,为我们提供图像识别的接口支持。
存储认证信息
导入后,我们需要使用获取的AppID、API Key和Secret Key来创建图像识别客户端AipImageClassify。
这里,为了方便使用,先将AppID、API Key和Secret Key以字符串的形式,依次赋值给变量APP_ID、API_KEY和SECRET_KEY。
新建AipImageClassify对象
只需把APP_ID、API_KEY和SECRET_KEY,依次传入AipImageClassify()函数中,即可新建一个AipImageClassify,也就是图像识别客户端。
这里,将返回的AipImageClassify对象赋值给变量client并输出。到这里,我们就完成了解决问题的第一步:接入百度智能云图像识别服务。磨刀不误砍柴工,这两节课,我们学习了很多图像识别和深度学习的知识。后面两节课,我们将进入实战部分,一起实现“电脑图像的智能识别和自动分类”。