目录
- 知识框架
- No.0 总纲安排
- No.1课程安排
- 一、目标
- 二、内容
- 三、 学到
- No.2 深度学习介绍
- 一、AI地图
- 二、图片分类
- 三、物体检测和分割
- 四、样式迁移
- 五、人脸合成
- 六、文字生成图片
- 七、文字生成-GPT
- 八、无人驾驶
- 九、广告点击
- No.3 安装
- No.3 安装
知识框架
No.0 总纲安排
B站网址:https://space.bilibili.com/1567748478/channel/seriesdetail?sid=358497
书籍网站第一版本: https://zh-v2.d2l.ai/chapter_preface/index.html
书籍网站第二版本:https://zh.d2l.ai/
跟着+B站视频+D2L网站
然后还要整markdown 记录;一个大章节一个markdown;
毕竟B站视频上面也有 PDF没有的笔记知识点的;
对于网站上的整成:形式如 D2L注意点;
No.1课程安排
一、目标
我们这门课是想讲;深度学习经典和最新的模型;我们会从最简单的;最老的;LeNet在80年代末期提出来的模型开始;讲到啊;计算机视觉比较流行的Resnet;以及说也是一个经典的一个持续模型;LSTM到最近比较流行的BERT;当我们在讲深度学习的时候;我们离不开机器学习啊;机器学习很多基础知识是我们需要的;啊损失函数啦目标函数啦;过滤和优化我们都会讲到;我们这门课的一大特点是说我们会给;代码实现;就我们不仅会讲这些;原理是什么样子的啊;数学上是怎么表示的;我们更多是说我们用代码;来给大家实现一遍;然后;在真实数据上体验一下所有这些算法的效果;大家可以不断的去啊尝试改修改代码;以及来得到一些一手的经验
二、内容
我们的内容包括了那么几大块;
当第一块是说;我们先讲一下深度学习的基础;就假设是说;大家不需要知道有机器学习;或者深度学习的背景;我们会从头开始讲起;
接下来会进入啊;深度学习的核心之一;就是卷积神经网络;我们从最早的开始;然后到深度学习的啊;引起深度学习这个狂潮的就是Alexnet;然后到VGG Inception;到Resnet则是最新的一些模型;
另外一块的话;跟卷机是一个空间的神经网络;循环神经网络是一个实践上的神经网络啊;从最早RNN开始啊到新的sequence to sequence;
在两大卷积和循环神经网络之后;注意力机制就是啊attention;是在最近几年啊新出来的一个;新的神经网络的种种类啊;很快在自然语言处理啊;甚至是是在在NLP处理以外的;啊领域也得到非常广泛的应用;所以我们接下来会;着重介绍一下注意力机制;
然后当然我们会介绍一下;机器学习的基础;就是优化算法;你给一个模型怎么样得到你的网络;啊因为深度学习啊计算量比较大;大家都知道需要很多的机器来跑啊;就是大力出奇迹的一个领域;所以我们会介绍一下;怎么进行高性能的计算;
包括了啊怎么并行;怎么啊多GPU以及分布式;
最后我们会介绍两大领域;就是一是计算机视觉;就是包括了目标检测啊语义分割啊;
然后另外一块是NLP处理;这目前是不管是深度学习也好;也是人工智能也好;这是最大的两大领域;这是我们整个的内容;
三、 学到
当这个课大家会学到什么;我觉得任何一个东西;你有三个比较关键的东西;一个是what;一个是how一个是why;叫what就是说啊有哪些技术;就你知道那个名词;就说你知道名次的话你就可以去搜啊;知道啊我们可以去搜到;因为现在网上太多东西;太多教程你可以去参考;就是说啊这一点很重要的;需要深度学需要哪一些技术;以及你在解决;实际问题的时候;这些哪些技术可以用来帮你解决问题;另外一块是怎么样做这个事情;当你知道有什么技术可用的时候;你就想哦我怎么样给一个数据;我怎么来实现这个模型;怎么进行调参得到我要的东西啊;要的精度也好要的呃速度也好;然后真的能够把它做出来;然后变成一个产品;或者是说变成一个paper;嗯最可能
在what how下面就是一个why;为什么会这样;这是一件很难的事情;就是我们尝试来去解释;为什么这个东西很好;为什么这个东西不行;当然这个;这个东西很多时候是一些直觉啊;深度学习大家知道;就是大家都觉得说有点像老中医;就是我知道这个东西很厉害啊;特别有效;但是你也很难说得清楚它到底为什么;所以这一块的话啊;为什么我们会给大家一些啊解释;直觉上的解释啊数学上的解释;以及说我们啊和一些我们的猜想;当然是说啊;大家可以去自己有自己的体会;因为每个人说的不一定是对的;大家都是一个啊自己的理解;所以这三块其实会有不同人;会有不同的需求啊;我在我觉得是说啊AI的相关从业人员;比如说产品经理;或者是说你是;想了解一下AI做什么的话;你大概知道深度学习有哪些技术;就是一些名词;你知道这个名词能干什么;然后数据科学家工程师;你要知道怎么样把你的东西做出来;就是你要手要快你最后能做出活;那对于研究员呢是researcher;和学生来讲;你除了知道有什么和怎么样做的话;你要解释为什么;这个是说你学到更深的东西;以及你能做出新的突破;你都要知道去了解为什么;特别是你得自己去想去思考为什么;OK这是我们觉得这这门课啊;希望大家能学到东西;大家根据自己的可能需求;可以各取所需;
No.2 深度学习介绍
一、AI地图
深度学习的介绍什么是深度学习; 首先我们知道啊; 我们画一个很简单的人工智能; 或或者说AI的地图; 模式一个是最早的是叫符号学; 然后接下来是概率模型; 就是基于很多统计模型; 接下来是机器学习; 你的y轴是说我想做的东西; 最底下面是感知; 就是我得了解的是什么东西; 然后做推理; 然后能形成自己的知识; 最后做规划; 就是说最底层的就是感知啊; 就是我能够看到这个物体我看见有啊; 这里有个我写的有有一个屏幕; 做推理是说我能既有看到东西; 去想象一下啊; 可能未来会发生什么事情; 第三个就是比较难的; 是说我得根据我看到的数据; 我看到的线下来形成我自己的知识; 啊; 第四个是说我能够知道所有东西的话; 我能进行一项比较长远一点的规划; 就是说我能未来怎么做; 可以做这个事情;
然后我在这里啊; 把几个大的领域相对来说; 做了一个很简单的规划; 第一是自然源处理; 自然源处理虽然; 啊我们在过去取得很大的进展; 但实际上还是停留在比较简单的感知上面; 比如说啊; 在语言处理用的比较多的是机器翻译; 机器翻译其实对一个人来讲; 比如说中文翻英文; 对一个人来说其实就是几秒钟的事情; 你给我说句话; 我大概大脑里面; 就会很自然的把它翻译成; 英语或者你给我讲英语; 我很自然的翻译成中文; 其实这是一个很多时候是人潜;意识里面一个感知的问题; 所以说你可认为说人; 任何能够; 几秒钟之内能够反应过来的东西; 它都属于感知的范围;
计算机视觉稍微能够往前走一点点; 就是说我能够在一个图片里面; 我大概可以帮你做一些推理; 然后啊; 当自然语言处理最早是符号学; 因为语言是一个符号首先说啊; 然后当然是说; 接下来你可以用概率模型; 你也可以用机器学习; 计算机视觉呢; 因为图片里面都是一些像素; 像素的话; 啊就是你就很难用符号学来解释; 所以计算机视觉大部分是用概率模型; 或者机器学习;
深度学习它是机器学习的一种; 说当然它能够做计算机视觉; 能做自然语的处理; 它还能做啊; 比如说reforcement learning; 它还能做比较更高盛一点的东西; 过去8年里面就是从从Alex net出现开始; 我觉得啊; 最热门的方向就是说; 深度学习和计算机视觉; 和自然语言处理的一个结合; 这是大的方向啊; 也是大家; 不管是工业界学术界; 都是关注最多的的; 方向啊; 这也是我们; 整个课程要关注的一个特点; 当然是说; 我们说我们其实也是做了一个; 整个AI里面一个很小的一块; 就说; 我们虽然会花很多时间去讲这些东西; 但是大家理解是说啊; 这个我们不等于不等价于AI; AI其实是一个很大的一个topic; 大家可以是说可以了解一下啊; 其他的领先领域;
二、图片分类
好; 我们来讲一下将深度学习在一些应用上的一些突破; 第一个就最简单是深度学习; 最好是在做图片分类上;做了比较大的突破啊; Imagenet是一个比较大的图片分类数据集; 它包括了1,000类的自然语言的啊; 自然物物体的图片; 它大概有100万张图片; 在你可以看到这一张图是表示说; 在过去几年里面啊; 时间从10年到17年; 然后你的y轴是你的错误率; 就在一里面的时候啊; 每一个点就表示一些paper的啊; 一些工作的他的错误率; 你可以看到1里面的时候; 大家错误率还有很还是挺高的; 最好的大概是2%十六27的样子; 在10年和11年; 特别是12年; 可以看到一个比较大的一个下降; 这个就是啊深度学习的开始; 这可以看到在接下来5年里面啊; 深度学习模型把整个图片分类的误差降到; 已经降到非常非常低了; 17年的时候; 基本上所有的团队; 他都能够做到5%以内的错误率; 基本上可以达到人类在对图片; 识别的一些; 进度了所以我们认为是说; 在图片分类这个问题上; 我们机器学习已经或者说深度学习; 已经做的非常非常好了;
三、物体检测和分割
另外一个是说啊; 当你不仅仅想知道一个图片里面有什么内容; 就说我还想知道是在什么地方; 就是物体检测; 这比如说这里有一张有个飞机; 我想用一个知道啊; 这个飞机出现在图片什么地方; 这个人出现在什么地方; 这个是物体检测;
物体分割式说我想知道每一个像素; 它到底属于这个飞机还是属于这; 个人; 这个是一个更深层次的一个应用啊;
四、样式迁移
另外一个是比较好玩一点的; 我有一个内容图片; 就说我拍了一个房子啊这是个宫殿; 然后拍了一个船; 我想把它换成一个我想匹配到这个啊; 印象派的风格; 可以说啊; 我能把这个样式图片和内容图片; 合成一下; 就是可以大家认为就是一个滤镜; 但这个滤镜的好处是说; 我能够任意换成我想要的一个形式; 我只要找到我一张型样式的图片; 我都能把它换过去; 看这个就是几个啊图片的效果;
五、人脸合成
还有是人脸合成; 人脸合成是说; 这里面所有的人脸都是假的; 就都都是通过机器算法; 从随机数开始的一些合成的照片; 基本可以看到啊; 人类是挺难分辨出来这些图片; 是真还是假了;
六、文字生成图片
另外一个是文字生成图片; 上面一个是说我想一个 baby啊的一个小萝卜; 和在遛狗的一张图片; 这个是我的输入; 我的输入就是我的图片; 可以看到下面; 其实生成的还是挺不错的; 就是说图片都是生成出来的; 在下面一个是说; 我想要一个像牛油果一样的椅子; 下面这些图片都是生成出来图片; 你可以看到是说基本上啊; 对人来讲可以看出来还挺不错的;
七、文字生成-GPT
还有一个是最近; 大家讨论比较多的一个叫; 文字生成模型; 是GPT three; 比如说我问一个问题; 如何来举行一个比较有效的一个董事会议; 这是我的人的问的问题; 下面这个比较; 长的就是第一步第二步第三; 第三步是机器肯定生成的模型; 基本上就是说啊; 你乍一看其实还挺像那么回事; 另外一个右边是说; 我想让你有人说我想啊; 把student在school这个table里面选出来; 然后这个模型能够给你生成一个secret; 语言可以真的帮你实现; 可以帮你实现给你写代码; 所以说啊; 这个也是个非常强大的语言的文字生成模型;
八、无人驾驶
另外一块当然是说大家可以看到媒体啊; 覆盖的比较多的就是无人驾驶啊; 这个是特斯拉的无人驾驶的一个图片; 可以看到左边是人坐在车上; 他在自己开车; 右边可以看到是啊; 在计算机用计算机视觉的模型; 把所有的车; 所有的你的规划路线你的道路跟你识别出来; 这是啊; 计算机视觉的一些在无人驾驶的一些应用;
九、广告点击
另外一个就是说作为一个结束啊这个小结; 想给大家看一个案例的研究; 就是说具体一个正常的一个应用; 是如何利用深度学习的; 以及它中间需要哪些样的技术; 以及哪样的人起什么样的作用; 我举一个例子就是一个做广告点击; 左边这个图可以看到是啊在; 嗯; 在; 搜索框里面搜baby toy; 就是你搜一个婴儿的玩具; 你会看到下面会出现很多啊; sponsored就是你的广告; 然后大家用百度用阿里都会看到啊; 用淘宝都会看到非常多的广告出来; 所以我们这个任务就是说我想去啊; 给你一个用户的输入; 我怎么样给; 你一些广告这是这个问题;
可以看到我们这个问题可以大概可以; 分成三个阶段; 第一个是说我; 当输入一个呃关键词的时候; 我先给你找到一些相关的广告出来; 接下来我就是一个机器学习的模型; 我想预测看到一个广告之后; 每个人的点击会怎样怎么样子; 上面又写了一个p; 等于就是你一个; 人会点击这个广告的概率; 第三步那么就是说; 根据你的点击率; 和每一次用户点了之后; 广告主会付你多少钱; 我把它一乘; 就是点击率乘以进价; 就会得到一个数字; 然后他把它作为一个排序; 排名高的我会出在最前面; 排名最低的我可能会舍去; 这个就是一个广告点击的三个步骤; 触发广告进行预测一个点击率; 最后做一个排序;
然后你; 里面最重要的就是; 我要预测一个点击率; 这是一个机器学习的模型; 可以看到是说; 这个有大概这个几个步骤; 第一步是说我看了一个广告的时候; 我首先要进行课程提取; 就是比如说包括了广告主; 是谁在打广告; 这个广告; 这个产品是什么样的描述信息; 和和一些产品的图片; 然后把这些特征放进一个模型之后; 我就可以预测他一个点击的预测; 这是我一个很简单的机器学习; 它就就是这么两个步骤; 特征提取+模型的预测; 然后我们可以把所有过去的广告展现; 和用户的点击; 存下来比如说过去三个月里面; 所有看过的广告; 我把它存在一个地方; 我们把它; 然后因为我知道用户点还是没有点; 所以我来我是有真实的用户点击行为; 我把它作为一个训练数据; 把这个数据大概比如说100个g; 或者一个t; 然后把它做特征提取; 然后放在一个模型里面进行训练; 这是我的训练模块;
No.3 安装
; 存下来比如说过去三个月里面; 所有看过的广告; 我把它存在一个地方; 我们把它; 然后因为我知道用户点还是没有点; 所以我来我是有真实的用户点击行为; 我把它作为一个训练数据; 把这个数据大概比如说100个g; 或者一个t; 然后把它做特征提取; 然后放在一个模型里面进行训练; 这是我的训练模块;
[外链图片转存中…(img-EYqyTky2-1698053556061)]