Task01:概览西瓜书+南瓜书第1、2章(2天)

Task01:概览西瓜书+南瓜书第1、2章(2天)
打卡截止时间:2月15日03:00
学习建议:西瓜书第1章和第2章主要是讲一些基本概念和术语,大家自己看就好,不过第1章和第2章有一些知识点可以跳过不看,这些知识点在没有学过后面章节的具体机器学习算法之前较难理解,下面我将其划出来:
第1章:【1.4-归纳偏好】可以跳过
第2章:【2.3.3-ROC与AUC】及其以后的都可以跳过

1.1

image1372×690 130 KB

我估计全世界的机器学习书只有这本有如此抒情散文式的开篇 —— 硬核机器男细腻优雅的文艺情怀。

image1638×482 261 KB

“经验”通常以“数据”形式存在 —— 有醍醐灌顶的感觉。做为一个软件工程师,我对于“数据”没有什么“经验”,虽然知道机器学习和数据科学/统计联系紧密,但是直到看到这句话,才突然理解了机器学习到底是做什么的:模型是基于数据建立的,算法是基于数据产生的,数据的好坏/完整度直接影响了机器学习的结果。软件工程是讲逻辑的,而机器学习没有,纯粹依托于数据提供的信息。

这也解释了chatGPT这个回答,是因为没有关于开车路程和时间和人数的关系这方面的训练数据。

image1180×522 47 KB

1.2

原始数据集

– m个样本

– d个特征,d个特征值

训练数据集 --> 预测 --> 训练结果

测试数据集 --> 预测 --> 测试结果

监督学习:

预测结果离散值 --> 学习任务“分类”(二分类,多分类)

预测结果连续值 --> 学习任务“回归”

无监督学习:

聚类

1.3

image1230×180 66.7 KB

3/2/2可能取值,假设空间规模大小为4x3x3+1 = 37,是说

3/2/2可能取值,再各加一种通配符*什么都行的情况 --> 4x3x3 吗?

最后的1是世界上没有好瓜这种情况?

image1020×334 39.4 KB

这俩是怎么对应的?

1.4 跳过

1.5

硬件存储的发展尤其是云存储和计算让机器学习重新有了发展机会。

1.6

希拉里没有用机器学习所以败选了吗?

2.1 经验误差与过拟合

错误率:E = a/m

精度:(1-a/m)x100%

误差:预测输出与真实输出的差别

– 训练集上的误差:训练误差

– 新样本上的误差:泛化误差

目标:泛化误差越小越好

过拟合:训练误差特别小,泛化误差则很大

– 无法彻底避免

P/NP问题,搜了一下也没有看懂。

2.2 评估方法

测试集:测试学习器对新样本的判别能力

测试误差:泛化误差的近似

测试集与训练集应该互斥

如何从原始数据集中产生训练集和测试集:

2.2.1 留出法

比如1000个原始样本,700个做为训练集,300个做为测试集 (常见训练测试划分比例2:1,4:1)

训练集测试集的划分要保证数据分布一致性 —— 使用分层采样

不同划分方式导致不同结果 --> 单次留出法不靠谱 --> 可以100次划分取平均

2.2.2 交叉验证法

用分层采样,将原始样本均分为K组,每次K-1个组为训练集,剩下一组为测试集,依次循环K次,最后返回均值。

通常K=10,也有5,20.

极端情况K=样本数,即留一法,不受样本划分方式的影响,但样本数较大时训练开销过大。

2.2.3 自助法

每次从原始数据集采样产生训练集时,都会随机从原始数据集挑选一个样本到训练集,然后再放回原始数据集,下一次产生训练集,这个随机样本就仍然有可能被选到。

这样的结果,大概1/3的样本不会在训练集中出现,这样的测试结果叫包外估计。

用途:数据集较小,难以有效划分训练集/测试集

缺点:改变了数据分布,引入估计偏差

2.2.4 调参与最终模型

参数调得好不好对最终模型性能有关键性影响。

验证集:进行模型选择与调参

2.3 性能度量

回归任务的性能度量:均方误差

以下是分类任务的性能度量

2.3.1 错误率与精度

错误率:

精度:

2.3.2 查准率,查全率,F1

混淆矩阵:

查准率/准确率:

预测出的正例里面,有多少是真实的正例(预测有多准)

查全率/召回率:

所有真实的正例里面,有多少被预测出来(预测全了没)

PR图:

image682×596 77.7 KB

曲线以下面积越大,性能越好

平衡点:查准率 == 查全率时的取值,越高则性能越好。

更常用的F1度量:

image716×144 14 KB

应用中对于PR的重视程度不一样,引入查准率/查全率偏好的加权调和:

β == 1:标准F1

β > 1:查全率影响更大

β < 1:查准率影响更大

n个二分类混淆矩阵的查准率和查全率:

宏值F1:各矩阵分别计算出PR值再平均

image720×422 27.2 KB

微值F1:各矩阵先平均值再算PR值

2.3.3及以后 跳过

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23849.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一键生成 PPT,斯坦福博士生自制PPT生成神器火了

Datawhale干货 AI工具&#xff1a;ChatBCG&#xff0c;编辑&#xff1a;机器之心 谁没有过为 PPT 熬夜的经历&#xff1f;现在&#xff0c;免费的一键生成 PPT 神器终于诞生了。 在即将过完的 12 月&#xff0c;相信很多人都在忙一件事&#xff1a;年终工作汇报。就像那句话说…

马斯克爆料Twitter裁了八成员工;OpenAI CEO:GPT-5根本不存在;小鹏被曝年终奖打0.5折 | AI一周资讯

来源: AI前线 微信号&#xff1a;ai-front 整理 | 凌敏 微软宣布开源 Deep Speed Chat&#xff1b;消息称软银旗下 Arm 启动赴美 IPO&#xff1b;国家网信办出台生成式 AI 管理办法&#xff1b;前理想 AI 芯片一号位骄旸加入三星&#xff0c;负责组建 GPU 团队…… 资 讯 Op…

标书怎么做?标书制作教程附标书制作思维导图

标书怎么做&#xff1f;标书制作教程附标书制作思维导图 现如今招标标项目已经成为一种常态&#xff0c;标书制作在大小公司都有需求&#xff0c;那么标书怎么做成为一种问题&#xff0c;网上标书制作教程多如牛毛如何才能找到合适自己的标书制作教程&#xff1f;今天小编分享…

招投标工作中投标书编制的流程是怎样的?

招标文件是操作机构的“招牌产品”&#xff0c;加强招标文件质量控制尤为重要。标书的制作及装订对于企业能否中标起着至关重要的作用&#xff0c;那么投标书编制的流程是怎样的呢&#xff1f; 1、投标书目录的确定 开始编制标书之前&#xff0c;目录的确定也是重要的一环。一…

如何软件项目电子投标

以下是电子投标具体流程&#xff1a; 大致流程&#xff1a;登录政采云 - 申请获得招标文件&#xff08;完成投标报名&#xff09; - 制作投标书 - 上传标书获得加密文件和备份文件 - 进入开标大厅 - 查看评标结果 其他以招标书要求为准 1、打开政府采购云平台&#xff0c;简称…

软件项目投标标书规范格式

实现___________系统 建设指导书 百育炎华公司 www.c1945.com 参考依据&#xff1a; 1&#xff0e;国家软件工程标准规范&#xff08;2000&#xff09; 2&#xff0e;ISO9001质量保证体系&#xff08;1997&#xff09; 3&#xff0e;CMM规范二级指导体系 第一分册 企业信息化目…

电子招投标——电子投标书制作教程

电子招投标简化了很多流程&#xff0c;因此在制作标书时也方便了许多。那么你是否知道电子投标书怎么制作和上传呢?中国招标网为大家带来电子投标书制作和上传方法分享&#xff0c;欢迎各位参考学习! 1.下载招标文件。登录网上的招标平台&#xff0c;找到要投标的项目&#xf…

如何制作标书?

大家都知道标书的制作及装订对于企业能否中标起着至关重要的作用&#xff0c;那么制作标书都有哪些要求&#xff0c;哪些细节&#xff0c;又如何制作出一个干净、整洁、美观的标书文件呢&#xff1f;下面小编给大家介绍下&#xff01; 步骤如下&#xff1a; 1.做标书之前一定要…

Facebook广告营销指南!Facebook广告投放技巧与策略!新手教程

Facebook广告之所以具有强大的功能&#xff0c;是因为它们使您能够根据特定的兴趣&#xff0c;行为和人口统计信息&#xff0c;准确地定位理想的客户。这意味着您可以在最有可能购买产品的确切人群面前推广产品以获得订单。 但是&#xff0c;在Facebook广告上投入大量资金以实…

社交媒体客户服务软件,你的营销利器

如果您在 2023年拥有面向客户的电子商务业务&#xff0c;您的客户正在社交媒体上与您的客户交谈。Facebook&#xff0c;Line&#xff0c;WhatsApp和Instagram等社交平台为您的客户提供有用的双向沟通渠道。作为一家公司&#xff0c;您可以拥有合适的系统工具来监控、处理和优化…

海外社交媒体营销之Facebook如何进行推广?

海外社交媒体营销之Facebook如何进行推广&#xff1f; 1、优化Facebook的主页和粉丝数量 Facebook主页是你营销工作的起点&#xff0c;所以如果你想做更好的营销推广&#xff0c;你必须首先设计页面。 如果你的页面内容足够优化&#xff0c;当客户搜索你的品牌名称时&#x…

Facebook营销策略指南:跨境电商如何利用Facebook营销产品

Facebook 营销策略 Facebook是电商卖家最有效的营销手段之一&#xff0c;但与此同时&#xff0c;在Facebook上的广告竞争也是越来越激烈&#xff0c;跨境电商商家想要在激烈的竞争中脱颖而出&#xff0c;针对目标个性化的广告对跨境电商来说也就越来越重要。那接下来就给大家讲…

YOOV人事管理|2023年面临7大职场趋势,关系到管理者和HR

各种停摆浪潮席卷了2022年的职场生态&#xff0c;对于人力资源工作者来说&#xff0c;无论是判断员工的意向&#xff0c;或是组织面对的挑战&#xff0c;都愈来愈复杂。YOOV人事管理针对2023年&#xff0c;提出了7项观察&#xff0c;提醒雇主和HR应留意的未来工作趋势。 1.安静…

chatgpt赋能python:用Python写个自动排班表

用Python写个自动排班表 Python是一种非常受欢迎的编程语言&#xff0c;可用于开发多种用途的应用程序。其中&#xff0c;自动排班表是一个很实用的应用&#xff0c;对于组织和管理团队的人很有帮助。在这篇文章中&#xff0c;我们将介绍如何使用Python编写一个自动排班表。 …

自动化测试工具加入黑科技带来新纪元

文章目录 一、自动化测试新纪元1.人工智能爆火的时代2.传统自动化测试工具现状3.当自动化测试工具遇上AI 二、基本测试流程1.创建项目2.输入测试流程3.设备农场进行测试4.生成查看测试报告 三、AI-TestOps工具特色小试牛刀——opencv辅助定位功能初窥门径——OCR辅助定位功能渐…

Microsoft365与Office到底啥区别?如何选择下载安装哪个版本?

Microsoft 365 是一种订阅服务&#xff0c;可确保你始终拥有最新的 Microsoft 新式生产力工具。 存在针对家庭和个人、中小型企业、大型企业、学校以及非营利组织的 Microsoft 365 计划。 适用于家庭和商业的 Microsoft 365 计划 包括你所熟悉的功能强大的 Microsoft 365 桌面应…

【经验分享】期刊缩写汇总

写参考文献时&#xff0c;有些期刊的参考文献中期刊名得用缩写&#xff0c;今天下午改烦了&#xff0c;在此汇总一下&#xff0c;再要改参考文献时可以直接来查。 &#xff08;会不断更新个人遇到的常见期刊缩写&#xff0c;集中在能源类&#xff09; 1.个人整理的常见期刊缩写…

西部の世界(2018-04-26)

image.png 今日は元気がないです。 昨日の夜は&#xff1c;西部の世界&#xff1e;がみていましたから。 そして、12じごろねました。 映画がおもしろいです。 でも、健康のために、これから早く寝なければなりませんね。 今天没有精神。 原因是昨天晚上《西部世界》。 导致十二…

Wayland与Weston简介

简单地说&#xff0c;Wayland是一套display server(Wayland compositor)与client间的通信协议&#xff0c;而Weston是Wayland compositor的参考实现。其官网为http://wayland.freedesktop.org/。它们定位于在Linux上替换X图形系统。X图形系统经历了30年左右的发展&#xff0c;其…

非常详尽,多图慎入:Wayland与Weston简介

简单地说&#xff0c;Wayland是一套display server(Wayland compositor)与client间的通信协议&#xff0c;而Weston是Wayland compositor的参考实现。其官网为http://wayland.freedesktop.org/。它们定位于在Linux上替换X图形系统。X图形系统经历了30年左右的发展&#xff0c;其…