机器学习,即machine learning
感谢easyai的精彩讲解:
easyai网址
文章目录
- 机器学习的概念
- 机器学习的原理
- 监督学习,非监督学习,强化学习
- 监督学习
- 非监督学习
- 强化学习
- 机器学习实操的7个步骤
- 现在举一个具体的任务来说明这些步骤
- 1.收集数据
- 2.数据准备
- 3.选择一个模型
- 4.训练
- 5.评估
- 6.参数调整
- 7.预测
机器学习的概念
什么是机器学习:
Field of study that gives computers the ability to learn without being explicitly programmed.
机器学习研究和构建的是一种特殊算法(而非某一个特定的算法),能够让计算机自己在数据中学习从而进行预测。
机器学习不是某种算法,而是很多算法的统称
比如深度学习,还有决策树,聚类,贝叶斯等
深度学习的灵感来自于大脑结构和功能,即有许多的神经元互连,ANN(人工神经网络)是模拟大脑生物结构的算法。
机器学习,深度学习,人工智能三者之间的关系是:
机器学习的算法其实有很多
这些都是以后要学习的,那这么多的算法其实有共同的思路,下面来总结一下。
1.把现实生活中的问题抽象成数学模型,并且清楚模型中不同参数的作用
2.利用数学方法对这个数学模型进行求解,从而解决显示生活中的问题
3.评估这个数学模型,是否真正解决了现实生活中的问题,解决的如何?
无论什么算法,无论什么数据,基本思路都是这三步。
归纳一下就是三点:
1.建模
2.求解
3.评价
当然,从上面三点其实不难看出,第一点是最难的,如何把一个现实问题抽象成数学问题,因为不是所有的问题都可以转换成数学问题。
机器学习的原理
以监督学习为例,说明机器学习的实现原理
比如我们教小朋友识字,拿出三张卡片,小朋友看着,然后我们说一条横线的是一、两条横线的是二、三条横线的是三
不断地重复,小朋友的大脑也在不停地学习,当重复次数足够多时,他就学会了三个汉字一、二、三。
那我们的机器学习过程和上述类似,不过机器把这个过程进行划分了:
一个是训练集,一个是特征,一个是建模,以及最后的模型。
上面提到的认字的卡片在机器学习中叫——训练集
上面提到的“一条横线,两条横线”这种区分不同汉字的属性叫——特征
小朋友不断学习的过程叫——建模
学会了识字后总结出来的规律叫——模型
总结:通过训练集,不断识别特征,不断建模,最后形成有效的模型,这个过程就叫“机器学习”!
相信看到这里应该是都能理解的。
监督学习,非监督学习,强化学习
机器学习根据训练方法分成三类,依旧是上面提到的监督学习,非监督学习和强化学习
监督学习
指的是我们给算法一个数据集,并且给定正确答案,机器通过数据来学习正确答案的计算方法。
关键词就是数据集,正确答案,学习正确答案
比如认识动物:
我们有一堆的动物照片,我们使用监督学习的时候,我们需要给这些照片打上标签。然后就可以将打好标签的照片用来训练。
我们打的标签就是正确答案,机器可以通过学习,在新照片认出这些动物的类别。
非监督学习
非监督学习中,给定的数据集没有正确答案,所有的数据都是一样的。无监督学习的任务是从给定的数据集中,挖掘出潜在的结构。
此时我的给的照片就是这样的,没有任何标签,但是我们希望机器能将这些照片分类。
通过学习,机器能将这些照片分为两类,但是和监督学习有着本质的差别,那就是机器并不知道那个是狗,那个是猫。
对于机器来说,只是单纯的把他们分成了两类
强化学习
强化学习接近生物学习的本质,有望获得更高的智能。他关注的是智能体如何在环境中采取一系列行为,从而获得最大的累计回报,通过强化学习,一个智能体应该知道在什么状态下应该采取什么行为。
比如说打游戏。
机器学习实操的7个步骤
所有的机器学习在实操中基本都有四步:
1.收集数据
2.数据准备
3.选择一个模型
4.训练
5.评估
6.参数调整
7.预测(开始使用)
现在举一个具体的任务来说明这些步骤
1.收集数据
收集很多的啤酒和红酒,通过光谱仪和测量酒精度的设备,形成一下的数据:
这一步非常重要。数据的数量和质量决定了预测模型的好坏
2.数据准备
我们收集到的数据还是会有很多的问题,需要进行数据清洗等工作。
把数据分成三个部分:训练集(60%)、验证集(20%)、测试集(20%)
以上组成了一个数据集。
3.选择一个模型
研究人员和数据科学家门创造了许多模型,有些非常适合图像数据,有些适合序列(图像or音乐),有些用于数字数据,有些用于基于文本的数据。
4.训练
训练并不是重点,数据的数量和质量、模型的选择比训练本身重要的多。
5.评估
一旦训练完成,就需要评估模型是否可用,这就是验证集和测试集的作用。评估的主要指标有准确率、召回率、F值
这个过程可以让我们看到模型如何对尚未看到的数是如何做预测的。这意味这代表模型在现实世界中的表现。
6.参数调整
完成评估后,可以用过调整参数来进一步改进训练。
7.预测
上面的所有过程都是为了这一步服务的,也是机器学习的价值。你只要告诉他酒的颜色和酒精度,他就会告诉你这是啤酒还是红酒了。
这是几种经典的机器学习算法。