李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/3 机器学习基本概念介绍

目录

  • 3/3 机器学习基本概念介绍
    • 快速了解機器學習基本原理
    • 生成式學習的兩種策略:要各個擊破,還是要一次到位
    • 能夠使用工具的AI:New Bing, WebGPT, Toolformer
    • Brief Introduction of Deep Learning
    • Gradient Descent
    • Backpropagation
    • 卷積神經網路 (CNN)
    • 自注意力機制 (Self-attention) (下)

3/3 机器学习基本概念介绍

快速了解機器學習基本原理

机器学习 ≈ 机器自动寻找一个函数f

例如:
chatGPT:输入:“什么是机器学习”通过函数f,输出:“机”
Midjournery:输入:一只可爱的猫,通过函数f,输出:一张猫猫图片
在这里插入图片描述

根据函数的输出可以分为两类:Regression(回归)与Classification(分类)

  • Regression:函数的输出是一个数值
    例如:输入输入今天的PM2.5值、温度、臭氧量等,输出明天的PM2.5值
  • Classification:函数的输出是一个类别(选择题)
    例如:判断一封邮件是否为垃圾邮件

机器学习不断发展不再局限于上述分类,而是变为了更加复杂的Structured Learning

  • Structured Learning:结构化学习,又称为Generative Learning生成式学习,生成有结构的物件(如影像、文句等)(联想:生成式学习就像是全职猎人里的暗黑大陆(乐)

chatGPT属于哪类?:把生成式学习拆解成多个分类问题

寻找函数的三步骤
【前置作业】决定要找什么样的函数?(无关技术,取决于要做的应用)
(先放总结)
在这里插入图片描述

展开来讲:

  • Step1:选定候选函数的集合Model
    深度学习中类神经网络的结构(如:CNN、RNN、Transformer等等)指的就是不同的候选函数集合,函数集合表示为H
    在这里插入图片描述
    目的:缩小选择的范围;技巧性强
    训练资料少时,L(f)小但测试差的函数就会多,这个时候画出集合范围要保守(小);反之测试数据多时,上述L(f)小但测试差的函数就会少
    涉及的拓展知识:Convolutional Neural Network,CNN、Self-attention……

  • Step2:订出评价函数优劣的标准
    使用函数Loss函数,将f做出输入,输入L函数:L(f),根据输出的大小,评价函数(越大越差)
    L的计算过程取决于training data
    常用方法:supervised Learning(全部都有标准答案),semi-supervised Learning(没有标准答案,要定义评量标准),RL(reinforcement Learning)等等
    在这里插入图片描述

  • Step3:找出最好的函数,最佳化Optimization
    在这里插入图片描述
    将集合H中的所有函数带入L中,寻找Loss最小值
    常用方法:Gradient Descent(Adam,AdamW…),Genetic Algorithm等等
    在这里插入图片描述
    超参数:手调参数

【注意】有时候每一步在选择方法时并不会选择所谓的“最优解”,原因是因为选择的方法的好是 能支援其他步骤
例如:在“设定范围“时,选择Residual Connection,虽然框选出的范围较大,但能在“达成目标”这步时选出真正最好的函数
在这里插入图片描述

生成式學習的兩種策略:要各個擊破,還是要一次到位

生成式学习:生成有结构的复杂物件
在这里插入图片描述
策略一:各个击破AR(Autoregressive Model)
在这里插入图片描述

策略二:一次到位NAR(Non-autoregressive Model)
在这里插入图片描述

怎么保证生成固定长度的文字?
法一:若100个字前没出现终止符,直接截断
法二:先决定输出100个字,再输出
在这里插入图片描述
两个方式比较

  • AR:速度慢,答案质量好,适合生成文字
  • NAR:速度快,答案质量较差,适合生成图像

P.s.生成影像常用NAR的原因是:影像像素过多,AR太慢

结合两个方法(取长补短)

  • 以语音合成为例:生成分为两个阶段,AR决定大方向,NAR生成最后产物
    在这里插入图片描述

  • 将“一次到位”改为“N此到位”(类似Diffusion Model)
    在这里插入图片描述

能夠使用工具的AI:New Bing, WebGPT, Toolformer

New Bing是有搜寻网络的,但什么时候进行搜寻是由机器自己决定的
在这里插入图片描述

没有相关论文,但有类似的WebGPT,论文地址: https://arxiv.org/abs/2112.09332

  • WebGPT回答生成过程:
  1. 输入”Which river is longer, the Nile or the Yangtze?”(翻译:拿一条河比较长,尼罗河还是扬子江?)
  2. WebGPT:提取关键字(如:”Nile vs Yangtze”、”nile length”、”Yangtze length”)
  3. 对关键字经行网络搜索,根据算法对搜索网页资料的部分段落进行收藏(注意只收藏文字段落,而不是整个网页)
  4. 整理生成答案(答案后会附上引用的网址)
    在这里插入图片描述

Toolformer:學習使用工具的 AI,可以使用多種不同的工具(如搜索网络、计算机、翻译等)
在这里插入图片描述

如何在没有人类示范的情况下生成大量资料?
方法一:用另一个语言模型产生资料;方法二:验证语言模型生成的结果
使用Toolformer的结果
在这里插入图片描述

LAMA、Math Benchmarks、QA Benchmarks:data Set,问答资料集
橙线:测试时不允许呼唤API(使用工具)(保证实验的严谨性)

Brief Introduction of Deep Learning

先附上大致的时间线
在这里插入图片描述

简述,来自:https://blog.csdn.net/zyuPp/article/details/99288909
1958年:人们感觉人工智能要来了,因为linear model的出现,它可以做到一些稍微复杂的分类和预测问题,当时他们也叫这个技术为Perceptron,感知器
1969年:有人终于发现了linear model有缺点,研究了一下为什么“坦克与卡车”的图像分类为什么如此精确,原来是因为两组图片的拍照时间不一样,而机器是通过其亮度作为特征来分类的
1980年代:多层感知机MLP,尝试使用多层的感知机(与现在的deep learning基本没有差别)
1986年:出现了反向传播,但是发现超过3层就不太有用了
1989年:有人认为,一个隐藏层就足够成为任何的function,这段时间多层感知机被各种嫌弃,所以人们才给它换了个名字,就是深度学习
2006年:RBM initialization被认为是大突破,这个非常复杂,用于梯度下降初始化值,最后发现复杂但是没啥用
2009年:知道要用GPU来加速深度学习的模型训练
2011年:被用在语音辨识中,发现很好用
2012年:赢得了ILSVRC图像比赛,做图像的人也开始用Deep Learning(著名的AlexNet)

深度学习的三步骤:
Step1:define a set of function (function即Neural Network)
Step2:goodness of function
Step3:pick the best function

在这里插入图片描述

logistics regression将其连接,一个逻辑回归称为Neuron神经元,
不同的方法连接Neural Network就得到不同的结构structure,
每个logistics regression都有属于自己不同的weight权重,和bias偏移量,
weight和bias的集合称为network的函数θ

将neuron连接起来的方式有很多种(手动连接),其中

Fully Connect Feedforward Network(完全连接前馈神经网络)是最常见的
用一个最简单的示意图说明

两个输入:1,-1;6个neuron,两个一列
每个neuron都有一组weight和bias,例如蓝色(上)的weight是1与-2,bias是1
则1与-1输入后得输出为4,4通过sigmoid函数(为了将数值映射至0-1)得0.98

在这里插入图片描述

反复进行上述运算
在这里插入图片描述

上述就是一个function,如果用向量来表示输入输出,则可得
在这里插入图片描述

但如果是不知道参数(weight & bias),则称为一个function set
一般化一个network的示意图
在这里插入图片描述

大家关于”Deep”的定义各不相同(多少层算Deep呢)一些著名的Deep Network
在这里插入图片描述
在这里插入图片描述

Matrix operation矩阵运算神经网络
将上述例子用矩阵运算表示(能提高大型运算的效率和速度)
在这里插入图片描述

则整个neural network的运算可以等同于一连串的matrix操作
在这里插入图片描述

network通过hidden Layers(隐藏层)来提取特征,替代了原来的特征工程(即手动选择特征),在隐藏层最后一层输出的就是新的特征,而输出层就拿着这些新的特征作为输入,通过一个多分类器(softmax函数),得到最后输出y
在这里插入图片描述

【举个例子:识别手写数字2】
输入一张16×16(256)像素大小的图片:输入维数为256(x1 ~ x256)
输出手写数字的数值0~9:输出维数为10(y1 ~ y10,输出y1表示数值为1,以此类推)
在这里插入图片描述

Step1:Neural Network
设计示意图如下
在这里插入图片描述

红色框中表示一个function set,其中每一个function都能用于做手写数字识别,只是有优劣差异
接下来的工作就是使用gradient descent,寻找一个最合适的function
最关键的是设计neural network的结构structure

Q&A
Q:怎么决定network的层数和neuron的数量?
A:不断尝试+直觉的
p.s. DL让我们从手动提特征转化到设计网络结构
很难去定义一个好的,合适的特征,倒不如让机器自己去尝试,再让人去选择,例如对于语音识别和影像识别,深度学习是个好的方法,因为特征工程提取特征并不容易
Q:能否自动设计结构?
A:进化人工神经网络(Evolutionary Artificial Neural Networks)但是这些方法并不是很普及
Q:可以自己设计网络结构吗?
A:可以。CNN就是不错设计结构,卷积神经网络

Step2:定义Loss函数
例如输入手写数字“1”,得到一组十维限量输出yi(理想输出是y^ 1000000000)
计算y与y^的Cross Entropy(交叉熵),手动调整参数,以求得C的最小值
在这里插入图片描述
在这里插入图片描述

其余的training data同理,输入后计算Cost,
将每一个function的Cost求和,得Loss值,
去除function set 中Loss值最小的function即可

Step3:寻找最优function
(我们的老朋友)Gradient descent
在这里插入图片描述

当计算量很大,以及计算很复杂时,我们也不会自己去计算,而是通过一些toolkit去计算
在这里插入图片描述

有一个通用理论:对于任何一个连续的函数,都可以用足够多的隐藏层来表示。(若为真是否只需一层网络即可,deep只是噱头)
在这里插入图片描述

Gradient Descent

Backpropagation

卷積神經網路 (CNN)

自注意力機制 (Self-attention) (下)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7316.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何用 GPT-4 帮你写游戏?

你知道的,GPT-4 发布了。 目前你想要用上 GPT-4,主要的渠道是 ChatGPT Plus 。作为交了订阅费的用户,你可以在对话的时候选择模型来使用。 另一种渠道,就是申请官方 API 的排队。我在申请 New Bing Chat 的时候,耐心被…

chatGPT与人形机器人,高泽龙接受中国经营报采访谈二者发展

1.相较于Chatgpt,人形机器人的市场前景有多大? 答:人形机器人的市场前景可以用“无限大”来形容,这看起来很夸张而且并不合理,其实是客观而且中肯的。因为这个问题就仿佛是五十年前,人们问“未来的电脑市场…

ChatGPT 来了,你准备好了吗?

周三的晚上,我做了一次直播,题目叫做《ChatGPT 来了,老师和同学们准备好了吗?》。如果你还没看,欢迎看看回放视频。 做这次直播,是因为受了三重刺激。 第一重,来自于我的一位好友,也…

7 个月来,ChatGPT 首次遭遇“负增长”!月访问量下滑 10%​,网友:“过气”预警?...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在全球掀起 AI 热潮的 ChatGPT,爆火了 7 个月后,似乎开始有些“过气”了? 根据网站数据分析工具 SimilarWeb 最新调查显示,在刚刚过去的 6 月中&#x…

GPT-4 手画设计稿 直接生成前端页面

1.演讲者直接手画了一个设计稿 2.输入指令:用html/js把这个原型稿变成彩色网站,填充 2 条真实的笑话 3. 网站代码自动生成 不少所谓的大V在朋友圈噱头喊着前端要失业XX,其实本质上对事物的理解认知不够 AI本质上是帮助人提高生产力的工具,人才…

文心一言话题的思考

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

Datawhale干货 论文解读:李沐,来源:机器之心 InstructGPT 和 ChatGPT 之间有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。 在 ChatGPT 走红之后,很多关注技…

ChatGPT之后性能怪兽来了?马库斯7大「黑暗」预测:GPT-4带不来AGI

视学算法报道 编辑:昕朋 好困 【导读】ChatGPT的爆火,点燃了人们对通用人工智能的热情。在全世界对GPT-4翘首以盼时,马库斯却做出7大预测,给大家泼了盆冷水。性能提升却不能理解世界,大型语言模型会是AGI的未来吗&am…

ChatGPT走红| 微软ATP带你开启高校AI人才培育新时代

与传统搜索引擎不同的是,ChatGPT不是机械罗列出相关网页结果,而是将答案进行整理、优化,以对话形式呈现给用户,还能很快根据上下文互动!甚至有人用它辅助自己写论文、完成文字性作业…… ▍抢跑早规划 入门AI不迷茫 AI…

AI 工具大全

文章目录 ChatGPT 聊天绘画与图像文章PPTAdoble语音通话捷径指令 视频音乐小程序帮你阅读 汇集 AI 工具,改变个人办公姿势。拥抱新时代的“通用人工智能”。利用 AI 工具来改造你学习和工作的流程。通过将 AI 嵌入生活和工作的方方面面,你不仅能够获得沉…

如何利用ChatGPT帮助开展日常科研工作?

©作者 | 芯片斯多葛 ChatGPT 可以赋能科研全流程,尤其是对于英语非母语的科研人员,可以极大地提高日常科研工作效率。 论文搜集助理 重要提醒:ChatGPT 可能会编造不存在的论文,而且论文数据库与谷歌学术等平台差距较大&#…

ChatGPT-AI地图

ChatGPT-AI地图 1、AI-对话 应用名称应用地址ChatGPThttps://chat.openai.com/NotionAINotion AIA.I. Data Sidekick:AI工具编写 SQL、文档等的速度提高10倍[AirOpsWritesonic:人工智能写作辅助工具Writesonic - Best AI Writer, Copywriting & Par…

GEEer成长日记二十三:chatGPT可以帮我们提取水体边缘吗?

欢迎关注公众号:GEEer成长日记 目录 01 首先,chatGPT是什么? 02 进入正题,如何进行边缘检测? chatGPT推出之后,引发了激烈的讨论,今天带各位看看它在GEE方面能为我们做什么。原本想着它可以…

Meta AI最新出品,全能的分割模型SAM:掀桌子的Segment Anything,CV届的ChatGPT已经到来!

掀桌子的Segment Anything 本来不打算再发关于分割的相关内容的,但是13小时前,2023年4月5号,Meta AI在Arxiv网站发布了文章《Segment Anything》,并将SAM模型代码和数据开源。作为通用的分割网络,SAM或许将成为&#…

日记20190416

研究生小白虐炼日记20190416 未来学家 科大云炬 2019-04-17 花了一天多时间为明天的组会准备了20页ppt。 阅读 18

【BBuf的CUDA笔记】九,使用newbing(chatgpt)解析oneflow softmax相关的fuse优化

0x0. 背景 随着年纪越来越大,读代码越来越困难,如果你发现看不懂同事写的代码应该怎么办呢?不要担心,大语言模型的时代了来了,chatgpt和gpt4会教会我们怎么读代码。本篇文章就来展示一下使用newbing(chatg…

企业级ChatGPT开发的三大核心内幕及案例实战(二)

2.2 企业级ChatGPT开发的三大核心剖析 Gavin老师:NLP_Matrix_Space 本节讲解LangChain官方提供的一个项目,跟大家展示企业级开发的核心元素,如图2-1所示,是项目的架构示意图。 图2- 1 LangChain项目架构示意图 一个基本原则是你的提示词和模型进行交互,作为和模型交互的…

跟着ChatGPT学PsychoPy编程3:将想要的数据写入数据文件/属性的用处

一:将想要的数据写入数据文件 问题描述: 通常使用组件直接设置的内容可能会被自动写入数据文件,比如键盘组件、图片组件等(具体来说,比如按键的反应时、正确的按键、在组件中添加的变量等)。 然而&#…

我们都被 ChatGPT 给骗了?

引言: 用过 ChatGPT 的人都知道,当你与 chatgpt 对话的时候,它是“逐字输出”的,就像真的有个人在跟你打字一样。其实,这种技术并没有那么神奇,这种技术叫做“实时文本生成”或“逐字输出”技术&#xff0…

将小米SoundMove 无缝接入 ChatGPT

将小米SoundMove 无缝接入 ChatGPT 本教程内容参考 Github 地址(可选)部署查看小米 SoundMove 信息的环境(可选)查看小米 SoundMove 的信息以容器方式部署程序到小米万兆路由器实际效果有待改善点 本教程内容 1 是记录了将小米 SoundMove 接入 ChatGPT 的操作步骤。 2 是将小米…