这才是计算机科学_人工智能

人工智能

  • 一、前言
  • 二、ML
    • 2.1 分类
      • 2.1.1 决策树
      • 2.2.2 支持向量机
      • 2.2.3 人工神经网络
  • 三、计算机视觉
    • 3.1 Prewitt算子
    • 3.2 Viola-Jones 人脸检测算法
    • 3.3 卷积神经网络
  • 四、自然语言处理
    • 4.1 知识图谱
    • 4.2 语音识别

一、前言

之前讲了计算机从发展到现在的过程,计算机很适合做迭代的工作
擅长 存放、整理、获取、处理 大量的数据
但是想根据谁做决定,就要牵扯到机器学习,这也是ML的本质
ML算法可以让计算机 从 数据中学习,然后自行做出预测&决 定

机器学习虽然有用,但是不会被定义为 智能
虽然ML AI 这两个词语经常混用,但是大多数科学家会说ML是为了实现AI这个更加宏大目标的技术之一

二、ML

2.1 分类

classification
做分类的算法叫做 “分类器classifier”
虽然可以用 照片声音 训练算法,很多算法会减少复杂度,把数据简化为“特征features”

2.1.1 决策树

举个例子:分类飞蛾,有两个特征值:“翼展” “重量” “”
在这里插入图片描述

把决策空间切成几个分块的简单方法,可以用 “决策树decision tree”来表示
在这里插入图片描述
一些算法会用多个 decision tree 来预测,科学家称其为 “森林forest”

2.2.2 支持向量机

Suport Vector Machines
本质上是用任意线段来切分 决策空间,不一定是直线,可以是多项式或者是其他数学函数,通过算法不断地对数据迭代,找出最好的线
在这里插入图片描述
再加入一个 特征,触角长度,2D的平面就会变成3D的了
在这里插入图片描述

四个特征,四维度…上千维度

决策树 & 支持向量机 这样的技术发源于 统计学

2.2.3 人工神经网络

灵感来自于大脑里的神经元,神经元是细胞,用电信号 化学信号来传输消息,神经元细胞从其他细胞得到一个或者多个输入值,然后做出反应 输出信号值,很多很多神经细胞组成巨大的互联网络,能处理复杂的信息

计算机中的人造神经元也很类似,可以接受多个输入,然后整合并发出一个信号
在这里插入图片描述
它不用电信号,化学信号 而是 input 数字 output 数字,形成神经元网络

回到上面的例子:看神经元如何分类

  1. 左侧需要被分类的单个飞蛾的数据(mass重量 wingspan翼展),右侧分类的结果
    在这里插入图片描述

  2. 中间有一个隐藏层,负责把输入变成输出,分类

分类神经元:把输入* 权重 ,然后求sum
在这里插入图片描述
对于sum(权重*原始值) ,用一个偏差值(bias)处理: + or - 一个x
一开始,这些权重 偏差值x都会是随机的,然后算法会调整这些值 来训练
最后,神将元有激活函数,也叫做传递函数(应用于输出,对结果执行最后一次数学修改(把负数变成0、控制值在一个区间等))
在这里插入图片描述
这个过程会应用于多个神经元,如下图3个

在这里插入图片描述
最终一层,数字最高的就是结果
在这里插入图片描述
中间结果会有很多很多层,这便是深度学习

在这里插入图片描述
尽管神经网络50年前就发明了,但是限制于硬件的发展,最近5年才得到应用

以上,一个算法虽然能人脸识别,自动驾驶,但是也都是只能做一件事
这种被称为“弱AI Week AI” or “窄AI Narrow AI”,只能做特定的事情。
通用的AI,像人类一样可以处理各种算法的,叫做“强AI Strong AI”,目前还没有做出来,但是人来留下来的大量的数据,用作训练,可能就是点燃强AI的燃料,就像 ChatGPT。

AI自己不断地学习,阿尔法go 自己和自己下了 上百万盘,自己发现成功的策略,这被称为“强化学习Reinforcement learning”

三、计算机视觉

半个多世纪以来,科学家一直想让计算机有视觉,因此记诞生了“计算机视觉Computer Viesion”这个领域
正如计算机视觉的大佬 李飞飞所说:“看到不等于看懂”
在这里插入图片描述
像素每一个是RGB

举个栗子:追踪粉红球
在这里插入图片描述
计算机会从上到下一个像素一个像素的check ,找打粉红球的RGB,
然后视频的每一帧都会做这个check,这样就会追踪这个球的踪迹了

但是因为 天气 等因素的变化,这个粉红球的RGB也可能会变,但是会寻找最接近的,每一个像素都要check,像素在这里被称为 “块patches”

3.1 Prewitt算子

举个栗子:找垂直边缘的算法
假设来帮助无人机躲避障碍,为了简单 可以把图片变成灰度
在这里插入图片描述

可以很容易的看到,杆子的左边缘从哪里开始的,因为垂直的颜色变化,可以制定规则:

  1. 某像素是垂直边缘的可能性,取决于左右两边像素的颜色差异程度
    在这里插入图片描述这叫做 核Kernal or Filter过滤器,里面的像素用来做像素乘法,总和存到中心像素

在这里插入图片描述
这里指定了每个像素要* 的值(-1,0,1)
在这里插入图片描述
新的值147就成为了中心像素的值,和原来224的色差很大,说明是边缘

把核Kernal应用到像素块,这个操作叫做 卷积convolution

把这个操作应用到其他块:
在这里插入图片描述

结果是1,和原来的色差很小,说明不是边缘

如果把kernal应用到照片中的每一个像素
在这里插入图片描述

想要看横向的,就需要用不同的Kernal
在这里插入图片描述

这两个边缘增强的核叫做Prewitt算子

3.2 Viola-Jones 人脸检测算法

当然还有很多很多的Kernal

判定眼睛的Kernal:眼睛:一个黑色的圆圈被外层更亮的一层像素包裹
在这里插入图片描述
计算机扫描图像,一个窗口,多种核来扫描,那么就可以找到人脸
在这里插入图片描述

这个早期人脸检测算法叫做:Viola-Jones 人脸检测算法

3.3 卷积神经网络

在这里插入图片描述
输入权重约等于 Kernal的值
但是和Kernal不同的是,卷积神经网络可以不断迭代出自己的权重

在这里插入图片描述

在这里插入图片描述
第一次卷积 出 边缘edges
第二次卷积出shapes(边缘组成的角落)
第三次卷积出 特征实例(眼睛 嘴巴)

最后把直到某一层把所有特征放到一起
在这里插入图片描述
卷积神经网络并不是一定需要很多很多层,但是系别复杂物体和场景就需要一定的复杂度,所以是 深度学习

有了脸部识别,那么我们就可用专用的计算机视觉算法来定位面部标识
在这里插入图片描述
在这里插入图片描述
这些信息可以用情感识别算法来实现

还可以标记一个人两眼之间的距离,以及前额头有多高,来识别是谁
这就是:生物识别biometric data

四、自然语言处理

4.1 知识图谱

让计算机如何理解语言,高级的编程语言也是语言,但是相对固定一些
,和人类的语言完全不同,人类的语言被称为“自然语言”
从计算机诞生之初就出现了计算机处理语言的学科NLP,结合了计算机&语言学

早期就是把一个句子切成一个词一个词 ,然后查词典,但是还有语法的问题,因此开发了 “短语结构规则” 来代表语法规则,基于这个规则可以做出分析树

在这里插入图片描述
按照 “短语结构规则” 来生成句子

Google版本的叫“知识图谱Knowledeg Graph”
在这里插入图片描述
对话系统Dialog Systenms,用上大量的聊天记录来训练深度学习模型

4.2 语音识别

贝尔实验室在1952年推出一个语音识别系统 Audrey ,自动数字识别器
在这里插入图片描述

a & e的两个声音的波形,信号来自麦克风内部隔膜震动的频率

为了更加容易识别,可以换谱图(spectrogram)看
在这里插入图片描述
这种图的转换是用 “快速傅里叶变换FFT”

在这里插入图片描述
音速phonemes:构成单词的声音片段
语音识别软件知道这些音速,英语大概有44种音速,因此语音识别也就是音速的识别,我们可以识别音速来识别这些

Speech Synthesis让计算机输出声音

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54807.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【ChatGPT】《chatGPT Box现已全平台上线,全面整合并以MIT协议开源》- 知识点目录

《chatGPT Box现已全平台上线,全面整合并以MIT协议开源》 这个视频主要介绍的是一款基于ChatGPT的开源工具【ChatGPT Box】; ChatGPTBox插件在chrome应用商店已经上线; 1. 右键菜单呼出对话框 & 位置可以拖拽调整 2. 文字选中问答 2.1 …

Stable Diffusion 母公司开源大语言模型,代号「StableLM」!

公众号关注 “GitHubDaily” 设为 “星标”,每天带你逛 GitHub! 昨天晚上 11 点,Stable Diffusion 的母公司 Stability AI 重磅宣布,正式开源一款全新的大语言模型:StableLM。 该模型的 Alpha 版本有 30 亿和 70 亿参数…

Stable Diffusion 母公司开源大语言模型StableLM

4月19号晚上 11 点,Stable Diffusion 的母公司 Stability AI 重磅宣布,正式开源一款全新的大语言模型:StableLM。 该模型的 Alpha 版本有 30 亿和 70 亿参数,并将于后续开放 150 亿和 650 亿的参数模型。 Stability AI 的创始人…

科研人论文必备神器(软件、网站、插件等)

科研人论文必备神器(软件、网站、插件等) 仅真实地推荐高效、有用的内容,无广告 文章目录 科研人论文必备神器(软件、网站、插件等)文献查找1.谷歌学术2.Web of Science(WOS)3.PubMed4.知网5.百…

2023年3月份报告合辑 附下载

把坚持当成一种习惯,别人光鲜的背后都有加倍的付出。没有谁比谁更容易,只有谁比谁更努力,三月已经成了过去,四月继续加油! 十二月报告 3.1:2023智慧会议技术白皮书 2023智慧会议技术白皮书 产业分析&#x…

java利用jdbc连接近远程MySQL数据库详细步骤+数据库封装类 --菜鸟小回

java利用jdbc连接近程MySQL数据库详细步骤数据库封装类 ChatGPT点击直接对话:小回公益GPT 文章目录 java利用jdbc连接近程MySQL数据库详细步骤数据库封装类 ChatGPT点击直接对话:[小回公益GPT](https://gpt.huijia.cf/)一、导入驱动包二、连接数据库1. 加…

国内信息安全行业常见法律法规介绍及个人理解

国内信息安全行业常见法律法规介绍及个人理解 前言网络安全法等保分保数据安全法 前言 法律法规,尤其是上位法(相对)是咬文嚼字、晦涩难懂的,常常阅读过后无法得到清晰、明确的理解。 但作为IT从业人员,无论是乙方争取项目机会、实施或设计过…

语音识别综述

语音识别的基本单位 Phoneme: 音位,音素 a unit of sound 是声音的最基本单位**,每个词语token的声音由多个 phoneme 组成** Grapheme(字位) smallest unot of a writing system 每个单词书写最基本的单位&#xff…

语音信号处理常用语料库下载地址

Noise92噪声库 Noise92是一个噪声的语料库,包括一些语音增强中常用到的噪声,每个文件持续235秒,其中噪声的采样率均为19.98KHz,可以通过下采样得到想要采样频率的噪声,上面的文件都是.mat格式,可以利用MAT…

语音信号处理的过程及其应用

一、语音信号处理的过程 在信号处理领域,信息加工和处理的一般流程下图所示。 在语音信号的具体情况下,信息源就是说话的人,通过观察和测量得到的就是语音的波形。信号处理包括以下几个内容,首先根据一个给定的模型得到这一信号的…

语音质量评估 Speech quality assessment 方法与代码编写

目前常用语音相对评估指标(参考)4个,绝对评估(无参考)指标3个。简述如下所示:** 相对指标: 1、pesq:共综合以下5个方面打分,分别为音频清晰度、音量、背景噪音音频中的可…

网页js版音频数字信号处理:H5录音+特定频率信号的特征分析和识别提取

文章目录 一、网页中的音频数据源二、FFT:时域转频域三、信号的特征分析四、信号的识别提取附录 音频数字信号处理 Audio DSP (Digital Signal Processing) 是一个复杂又专业的话题,本文介绍的是如何从音频中实时分析和识别出特定频率信号的一种方法&…

telegram设置中文

浏览器打开 https://t.me/setlanguage/classic-zh-cn,只要安装了tg,会自动打开tg,提示切换至中文

谷歌浏览器chrome 语言设置为英文

1.打开Chrome浏览器主界面,看到右上角的【三个点】一样的标志,鼠标左键单击,选择【设置】 2.打开【设置】之后,下拉到最底部看到【高级】两个字,我们鼠标点击一下打开它 3.打开【高级设置】之后我们继续往下拉&#xf…

Chrome浏览器 F12控制台中文改成英文

当Chrome浏览器 F12控制台是中文,怎么设置成英文? 第一步:点击控制台右上角的设置图标 第二步:“语言”选项从浏览器界面语言设置成英文 第三步:重新加载DevTools,控制台变成英文了

谷歌浏览器设置中文教程

谷歌浏览器是由谷歌公司推出的一款网页浏览器,稳定性强,运行速度快,唯一不足的应该就是它不是中文的,那要如何给谷歌浏览器设置中文?下面就一起来看看具体的设置方法吧。 谷歌浏览器怎么设置中文? 1、进入浏…

【爬虫】爬取百度图片加载不出来

图片加载不出来?(防盗链) 在img标签禁用referer 博客 https://blog.csdn.net/fRF0lw4/article/details/80105574 防盗链解决方案 https://www.cnblogs.com/lydiawork/p/7838153.html 防盗链原理

chatgpt赋能python:Python爬虫网页超链接的SEO实践指南

Python爬虫网页超链接的SEO实践指南 随着互联网的普及,新的网站层出不穷,各种搜索引擎如Google、百度也不断更新搜索算法,以提供更优质的搜索结果。在这个过程中,SEO技术成为网站推广优化的重要手段之一。Python爬虫作为一种常用…

ChatGPT和GPT-4胜出基于四个方面

作为一项人工智能技术,ChatGPT正在以飞快的速度向前发展,其强大的学习能力甚至可以用超乎想象来形容。 最近,OpenAI公司又带着最新的GPT-4开始“大杀四方”了~OpenAI推出GPT-4文本生成AI系统。 那么作为目前NLP领域最前沿的研究成果之一&…

为什么当时那么多大佬不投资阿里?雷军:马云把项目说得太大,像个骗子!

现在我们也可以看出来互联网行业的发展可以说是很热门了,并且还很多发展的潜力。那么也就向我们表明了多年以前马云关于互联网的判断是正确的。不管是现在马云的电子商务还是移动支付等等一系列的互联网产品都充分地向我们证明了阿里巴巴的发展方向是正确的。 然而我…