机器学习入门篇

AI入门

故事

  1. 图灵测试

测试者和被测试者(人和机器) 隔开,通过一些装置互相随意提问,如果(5min内)超过30%的测试者不能确定是人还是机器,那么这台机器就认为具有人类智能。

  1. 达特茅斯会议-人工智能的起点

1956-8, 美国汉诺斯-达特茅斯学院,初次定义的会议名称-人工智能,这一年也称为人工智能元年

80年代正式形成期,无影响力

90年代-2010年 蓬勃发展期

2012年后深度学习期

2022年chatGPT


机器学习是人工智能的实现路径,深度学习是机器学习的一个方法发展而来

通讯,感知,行动是现代人工智能的三个关键能力,而这三个技能对应三种技术:计算机视觉(CV) 自然语言处理(NLP)和机器人,

在NLP领域中,将覆盖文本挖掘,机器翻译和语音识别。

故事: 鸡尾酒会效应(语音识别)

人可以屏蔽,但是机器不行


[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ukQh9xdk-1681036462671)(/Users/haoranzhang/Library/Application Support/typora-user-images/image-20230409153508837.png)]


一、入门了解篇

机器学习五步走

  • 获取数据
  • 数据基本处理
  • 特征工程
  • 机器学习(模型训练)
  • 模型评估
  1. 我们习惯一行数据称为一个样本,一列数据称为一个特征。
  2. 有些数据有目标值,有些数据则没有

有目标值的推倒: 例如根据以往多年的房屋价格变动预测来年的房屋价格

无目标值的推倒: 给出一组图片,说让给予分类,但是图片样本中的人物,有戴帽子的和没戴的,有拿着工具的也有没有拿着的,还有穿衣服的和没穿的等等,不包括服装颜色,进而更复杂的可能还有面部表情等等,而没有具体目标。

1.数据集的专有名词
  • 样本
  • 特征
  • 目标值
  • 特征值
2.数据类型构成
  • 类型一: 特征值+目标值(目标值为离散还是连续)
  • 类型二: 只有特征值,没有目标值
3.数据分割
  • 机器学习一般分成两个部分
    • 训练数据: 用于训练和模型构建
    • 测试数据: 在模型检验的时候,用于模型评估
  • 划分比例
    • 训练集 70/ 80/ 75/
    • 测试集: 30/ 20/ 25/
4.数据处理
  • 剔除异常值,转换异常值等等

机器学习中的数据处理场景和手段非常多样化,下面举几个例子:

  1. 数据清洗:数据清洗是指处理原始数据中的噪声、缺失值、异常值、重复值等问题,以提高数据的质量和可用性。常见的数据清洗手段包括删除缺失值、插补缺失值、平滑数据、去除离群值等。
  2. 数据集划分:在进行机器学习任务时,需要将原始数据集划分成训练集、验证集和测试集。训练集用于训练模型,验证集用于调整模型超参数和评估模型性能,测试集用于评估模型的泛化能力。常见的数据集划分方法包括随机划分、分层划分等。
  3. 特征工程:特征工程是将原始数据转化为可供模型使用的特征的过程。它是机器学习任务中非常重要的一环,能够显著影响模型的性能和准确度。常见的特征工程手段包括特征提取、特征选择、特征转换、特征降维等。
  4. 数据归一化:数据归一化是将不同尺度的数据转换为同一尺度的数据,以提高模型的性能和收敛速度。常见的数据归一化手段包括最大-最小归一化、Z-Score归一化等。
  5. 数据增强:数据增强是指通过对原始数据进行变换和扩充,增加数据集的大小和多样性,从而提高模型的泛化能力和鲁棒性。常见的数据增强手段包括旋转、平移、缩放、镜像等。

总之,机器学习中的数据处理场景和手段非常多样化,可以根据具体任务需求选择相应的处理手段。常见的数据处理手段包括数据清洗、数据集划分、特征工程、数据归一化、数据增强等。

5.特征工程

特征工程是指将原始数据转换成适合机器学习模型的特征的过程。它是机器学习模型中非常重要的一环,决定了模型的性能和准确度。特征工程的目的是将原始数据中的有用信息提取出来,并将其表示为一组有意义的特征,以便机器学习算法能够对其进行学习和预测。以下是特征工程的一些常见步骤:

  1. 数据清洗:在进行特征工程之前,需要对原始数据进行清洗,包括处理缺失值、异常值和重复值等。
  2. 特征提取:特征提取是将原始数据转换成可供模型使用的特征的过程。这可以通过数学方法、统计分析或数据挖掘算法来实现。例如,可以使用PCA等方法对数据进行降维,或者使用文本分析技术提取关键词等。
  3. 特征选择:特征选择是从提取的特征中选择最有用的特征的过程。这可以通过统计方法或机器学习算法来实现。例如,可以使用相关性分析、方差分析等方法来选择最相关的特征,或者使用正则化方法来减少过拟合。
  4. 特征转换:特征转换是将特征转换成模型可以处理的形式的过程。这可以通过标准化、归一化或离散化等方法来实现。例如,可以将数据缩放到相同的范围内,或将连续变量转换为离散变量。

总之,特征工程是将原始数据转换为适合机器学习算法的特征的过程。特征工程的目的是提高模型的性能和准确度,需要经过多个步骤的处理,包括数据清洗、特征提取、特征选择和特征转换等。

使用专业知识和技巧处理知识成为机器更容易识别的数据,使得特征可以在机器学习发挥更好的作用。

意义 : 会直接影响机器学习的效果

数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

1. 提取特征

将任意数据转化为可以用于机器学习的数字特征

比如: 你好---->. 00000010. 00000020

2.特征预处理

特征预处理是机器学习中的一个重要步骤,它的主要作用是对原始数据进行处理和转换,以便于算法更好地处理和理解数据。具体来说,特征预处理包括以下几个方面:

  1. 数据清洗:数据清洗是指对原始数据中的错误、不完整或重复的数据进行处理和清理。例如,去除空值或缺失值,去除异常值等。
  2. 特征选择:特征选择是指从原始数据中选择最相关的特征,以便于机器学习算法更好地理解数据。例如,根据统计分析或领域知识选择最相关的特征。
  3. 特征变换:特征变换是指对原始数据进行数学变换,以便于机器学习算法更好地处理数据。例如,对数据进行归一化、标准化、对数变换等。
  4. 特征降维:特征降维是指将高维数据转换为低维数据,以便于机器学习算法更好地处理数据。例如,使用主成分分析(PCA)将数据降到低维空间。

举例来说,对于一个房价预测的问题,原始数据可能包含了房屋的面积、卧室数量、距离市中心的距离等多个特征。在特征预处理中,可以进行数据清洗,去除异常值或空值;特征选择,选择与房价相关的特征;特征变换,对数据进行归一化或对数变换等;特征降维,使用PCA将数据降到二维或三维空间中。这些处理都可以提高机器学习算法的准确性和效率。

3. 特征降维

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xBA1tP0r-1681036462672)(/Users/haoranzhang/Library/Application Support/typora-user-images/image-20230409161857418.png)]

如图: ----

机器学习

机器学习依赖于多种因素,包括算力、算法、数据质量和模型选择等。具体来说,以下是机器学习所依赖的主要因素:

  1. 算力:机器学习需要大量的计算资源来处理和分析数据。随着数据量和模型复杂度的增加,算力对机器学习的重要性越来越大。算力的提升可以通过增加硬件资源(如GPU)或使用云计算服务来实现。
  2. 算法:机器学习算法是机器学习的核心,决定了模型的性能和准确度。不同的机器学习算法适用于不同的数据类型和应用场景。例如,决策树、支持向量机、神经网络等。算法的选择需要考虑到数据类型、数据量、模型复杂度等多个因素。
  3. 数据质量:机器学习模型的性能和准确度直接取决于数据的质量和可靠性。因此,数据清洗、特征工程和数据预处理等步骤非常重要。同时,数据量的大小也会影响机器学习的性能和准确度。
  4. 模型选择:机器学习需要选择适合问题和数据类型的模型。不同的模型具有不同的优缺点和应用场景。例如,线性回归、逻辑回归、卷积神经网络等。模型选择需要考虑到算法的适用性、模型的复杂度、训练和推理的时间成本等多个因素。

总之,机器学习依赖于算力、算法、数据质量和模型选择等多个因素。这些因素的协同作用可以提高机器学习的性能和准确度。

模型评估

  • 关注的指标
    • 准确率: 正确预测占全部样本的比例
    • 精确率:正确预测为正的占正样本的比例
    • 召回率: 正确预测为正的占全部正样本的比列
    • F1-score: 评估模型的稳健性
    • AUC指标:评估样本不均衡的情况
  • 回归模型评估
    • 均方根误差: RMSE
      • 真实值和预测值的差的平方,然后所有样本求和 然后和样本相除,开根号得到的结果
        • image-20230409165338974
    • 相对方误差RSE
      • 实际值和真实值的差的平方,然后所有样本求和 实际值和实际平均值的差的平方,所有样本的和。 二者相比得到的结果
      • image-20230409165355063
    • 绝对误差MAE
      • image-20230409165628260
    • 决定系数
      • image-20230409165657411

拟合

欠拟合

过拟合

在机器学习中,模型的目标是通过学习样本数据中的模式和规律,从而对新的数据进行预测或分类。为了评估模型的拟合能力和泛化能力,通常需要定义一些拟合标准(也称为损失函数或评价指标),用来衡量模型预测结果和真实值之间的差距。

下面是一些常见的拟合标准:

  1. 均方误差(Mean Squared Error, MSE):均方误差是回归问题中最常用的拟合标准之一。它衡量模型预测结果与真实值之间的平方误差,然后取平均值。MSE值越小,模型的拟合能力越好。
  2. 交叉熵损失(Cross Entropy Loss):交叉熵损失是分类问题中常用的拟合标准之一。它衡量模型对样本的分类准确程度,越接近真实分类标签,损失值越小。交叉熵损失适用于二分类和多分类问题。
  3. 对数似然损失(Logarithmic Loss):对数似然损失也是分类问题中常用的拟合标准之一。它衡量模型在给定样本下预测每个类别的概率分布与真实的概率分布之间的距离。对数似然损失越小,模型的拟合能力越好。
  4. 准确率(Accuracy):准确率是分类问题中最简单的评价指标之一,它衡量模型预测正确的样本数占总样本数的比例。准确率越高,模型的拟合能力越好。
  5. F1-Score:F1-Score是分类问题中常用的综合评价指标,它结合了精确率和召回率。F1-Score越高,说明模型在预测正例和负例时都表现良好。

学习目标

  • 监督学习

    如果数据是离散的就是分类

    如果数据是连续的就是回归

    • 目的: 预测
    • 分类: k-近邻算法、 贝叶斯算法、决策树、随机森林、逻辑回归、神经网络
    • 回归: 线性回归,岭回归
  • 无监督学习

    • 目的: 发现潜在结构
    • 聚类:k-means,降维
    • 无标签无反馈
  • 半监督学习

    • 一些数据有目标值,一些数据没有目标值
  • 强化学习

    • 目的: 长期利益最大化,回报函数
    • 算法: 马尔可夫决策,动态规划

有监督和无监督的对比

监督学习 : (分类/回归) 输入有特征,有标签的数据,既有标准答案

无监督学习: (聚类) 输入有特征,有标签的数据,既无标准答案

Azure:机器学习平台
image-20230409171601941

深度学习(了解篇:TODO)

神经网络发展而来,比较有代表的是卷积神经网络

image-20230409172306297

伸手去摸杯子,很快就会反馈,烫不烫,然后逃离判定等

层数: 器官层,分子层,原子层

节点数:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/44844.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Midjourney V5 与 V4 哪个更好?综合评测,Prompt 全公开!

【CSDN 编者按】最近 AI 绘画工具新版本 Midjourney V5 一经发布,便火爆朋友圈,今天我们就来评测一下 V5 与 V4 的区别~ 原文链接:https://medium.com/catmus2048/midjourney-v5-%E6%AF%94-v4-%E6%9B%B4%E5%A5%BD%E5%90%97-%E7%BB%BC%E5%90%8…

游戏陪玩系统源码中聊天室内礼物系统的实现

游戏陪玩系统源码中聊天室的礼物系统,第一步用户看到的无外乎都是礼物的列表界面 纵观主流聊天室的礼物列表应该都是使用UICollectionView实现的,所以我也不例外,下面就是各种撸代码.效果如下 看着效果还不错吧.但是但是我突然发现一个问题.游戏陪玩系统源码中礼物展示的顺序跟…

游戏陪玩语音聊天系统3.0商业升级独立版本源码

首发价值29800元的最新商业版游戏陪玩语音聊天系统3.0商业升级独立版本源码 1、增加人气店员轮播 2、优化ui界面丨优化游戏图标展示丨优化分类展示 3、增加动态礼物打赏功能 4、增加礼物墙功能 增加店员满足业绩,才能升级功能 5、增加店员等级不同,可接…

新版游戏陪玩约玩APP源码 多人连麦聊天/语音直播社交双端APP源代码 附搭建教程文档

功能介绍: 1.游戏陪练:可以选择当下火爆的游戏内容,选择游戏大神、职业玩家进行陪练,也可约附近路人玩家或是身边的小伙伴语音组队开黑,一起享受边玩游戏边吐槽的无限乐趣。 2.约玩交友:除了游戏陪玩功能&a…

用户登录很重要,实现游戏陪玩app源码注册功能

登录页面是游戏陪玩app源码非常重要的页面&#xff0c;用户注册、登录都是在这个页面完成的&#xff0c;接下来我们就看看&#xff0c;怎么实现一个简单的游戏陪玩app源码登录页面。 上图为演示画面 login.xml&#xff1a; <RelativeLayout xmlns:android"http://sch…

2022商业版游戏陪玩陪聊系统最新源码+视频教程+全套素材

网友分享给会员的&#xff0c;拿去学习研究吧&#xff0c;写法简单明晰&#xff0c;可以做项目但是一定要审核好&#xff0c;遵守好法律法规&#xff01; 提供在线聊天功能&#xff0c;在线下单功能&#xff0c;手机支持WAP&#xff0c;公众号&#xff0c;并可以封装成APP。源代…

游戏陪玩 语音聊天系统

1.增加人气店员轮播 2.优化ui界面丨优化游戏图标展示丨优化分类展示 3.增加动态礼物功能 4.增加礼物墙功能 增加店员满足业绩&#xff0c;才能升级功能 5.增加店员等级不同&#xff0c;可接dan的价格不同 6.更新&#xff1a;动态广场功能&#xff08;支持视频语音图片&…

仿TT语音,语音游戏陪玩APP源码,社交属性强大

近年来&#xff0c;全球进入电子竞技热潮。据艾瑞咨询数据统计&#xff0c;2018年&#xff0c;电子竞技产业规模突破了850亿元&#xff0c;电竞产业相关人群达4亿人。在国内来讲&#xff0c;高校纷纷开设电竞专业&#xff0c;亚运会也承认电子竞技项目的加入。在诸多大背景下&a…

小米昨天发布的新机,简直太TM牛了……

很多时候&#xff0c;小米的新品&#xff0c;确实能给大家带来惊喜。 最近&#xff0c;小米又发布了许多新品&#xff0c;咱们一起来看一下吧。 1、小米13海外版定价惊喜 最近&#xff0c;小米在WMC2023巴塞罗那展上&#xff0c;面向全球发布了最新的小米13以及小米13 Pro两款机…

人工智能,有多能?

人工智能&#xff0c;有多能&#xff1f; "AI"二字&#xff0c;相信大家并不陌生。但是&#xff0c;全力发展人工智能&#xff0c;真的合适吗&#xff1f; 六年前&#xff0c;小米发布了小爱同学。这大概是离大家最近的人工智能了。尤记得发布会上&#xff0c;雷军手…

超级简单的python爬虫详细教程!!

爬虫 爬虫是什么 爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称。 爬虫的原理 如果要获取网络上数据&#xff0c;我们要给爬虫一个网址&#xff08;程序中通常叫URL&#xff09;&#xff0c;爬虫发送一个HTTP请求给目标网页的服务器&#xff0c;服务器返回数据…

chatgpt赋能python:用Python爬取电影数据

用Python爬取电影数据 作为一个Python工程师&#xff0c;有很多有趣的项目可以用Python实现。其中之一是爬取电影数据&#xff0c;这对于电影爱好者和电影行业从业者来说都是非常有帮助的。本文将介绍如何使用Python爬取电影数据&#xff0c;并对如何优化这个过程进行讨论。 …

chatgpt赋能python:Python电影分析

Python电影分析 Python在数据分析领域拥有着广泛的应用&#xff0c;其中之一就是进行电影数据分析。本文将介绍利用Python对电影数据进行分析的过程及结果&#xff0c;并提供了Python爬虫和数据可视化的代码示例。 网站选取 在进行电影数据分析之前&#xff0c;我们需要先选…

推荐一款语音识别软件

一、简介 使用接口转换需要输入的语音为文字。 给大家带来一款语音识别软件&#xff0c;想做智能识别语音设备或者想给项目增加功能的同学可以看下 这款软件是使用python写的&#xff0c;其实开发语言无所谓用其他语言也可以写 代码还是挺简单的。 这款软件主要使用接口完成识…

文本转语音最新便携版Balabolka2.15.806 + 10个左右的发音人

Balabolka 绿色中文版是一个文本转语音&#xff08;TTS&#xff09;和语音朗读程序。Balabolka 可以使用计算机系统上安装的所有语音。屏幕上的文字可以被保存为一个WAV&#xff0c;MP3&#xff0c;OGG或者WMA文件。该软件可以读取剪贴板的内容&#xff0c;可以查看AZW&#xf…

Edge-TTS 语音朗读

基于微软edgeTTS开发的语音朗读转MP3软件&#xff0c;支持实时MP3转换&#xff0c;支持角色朗读&#xff0c; 支持在线网页浏览&#xff0c;支持全文转成MP3, 从光标处转成mp3, 选择内容转成mp3.&#xff0c;支持剪切板转成MP3., 支持合并对话所生成的MP3为一个文件&#xff0…

微软TTS语音引擎实现文本朗读

科大讯飞和neospeech tts哪个更好 朋友们或许还有一个疑问&#xff0c;就是不知道科大讯飞和neospeech哪个更好。据我的体会&#xff0c;它们其实各有优点。 科大讯飞有几个语音库&#xff0c;比如小宇、小燕、还有一个粤语和英语的&#xff1b;而neospeech则有lily、liang、h…

好物推荐:文字转语音朗读软件哪个好?

不知道大家有没有像我一样的&#xff0c;对“语音播放”、“语音朗读”是又爱又恨的。有时工作繁忙&#xff0c;而同事或客户发来语音资料需要整理时&#xff0c;就会很烦躁&#xff0c;因为语音的整理起来比文字的繁琐一些。而像有时在家休息&#xff0c;还得看一些资料时&…

分享5个宝藏文字转语音配音软件,错过太可惜

经常看到有人问如何将文字转成语音&#xff0c;以及配音软件&#xff1f;什么样的配音工具可以做到堪比真人&#xff1f;文字转语音操作起来难不难&#xff1f;新手小白不会用怎么配音呢&#xff1f; 在测试了几十款款文字转语音工具后&#xff0c;最终给选出了下面这5款超好用…

文字转语音朗读如何操作?手把手教你如何将文字转语音

有些小伙伴喜欢在闲暇时间看小说来打发时间&#xff0c;特别是上下班通勤这个时间段&#xff0c;不过每当这个时候都是高峰期&#xff0c;经常出现腾不开手看小说的现象&#xff0c;所以面对这种情况&#xff0c;有声小说就是一个不错的选择。 但有时喜欢的小说比较小众&#…