机器学习复习(下)

严正声明:本文的答案是ChatGPT的回答,仅供参考,不代表就是正确答案!!!

9.什么是泛化误差和经验误差,是不是越小越好?为什么?

        泛化误差:在“未来”样本上的误差

        经验误差:在训练集上的误差

        泛化误差越小越好;经验误差不是越小越好,因为会出现“过拟合”。

/*

        过拟合指的是模型在训练集上表现非常好,但是在测试集上表现较差的情况。当模型过于关注训练集中的噪声或个别样本时,就容易导致模型出现过拟合的问题,这时模型的泛化能力就会受到影响,泛化误差就会变大。

        因此,我们要同时考虑经验误差和泛化误差,以确保模型的泛化能力良好。在实际应用中,我们通常会将数据集划分为训练集和测试集,通过评估模型在测试集上的泛化误差来选择最优的模型。

        我们希望经验误差和泛化误差都要尽可能小,因为模型的主要目标就是能够在新数据上表现得好,而不仅仅只是对训练数据进行拟合。

        但是,有时为了降低泛化误差而增加模型的复杂度或修改算法,可能会导致经验误差略微增大。因此,我们需要在两者之间寻求一个平衡点。

*/


10.决策树生成的基本流程,其三个停止条件式什么?

        决策树是一种基本的分类和回归方法,它通过对数据集进行递归划分来构建一个树形结构,每个节点表示一个属性,每个叶子结点表示一个类别或者一个数值。

        在实际应用中,还可以通过设置决策树的最大深度或者最小样本数等参数来控制决策树的生成过程和规模,以防止过拟合。


11.聚类算法的两大性能度量指标是什么?其简单举例说明

        聚类算法是一种无监督学习算法,它通过将数据集中的样本分成不同的簇来描述数据集的结构和特征。聚类算法的两大性能度量指标是内部质量度量和外部质量度量。

1. 内部质量度量:直接考察聚类结果而不用任何参考模型。

        轮廓系数(Silhouette Coefficient)用于评估同一簇内的数据点的紧密度和不同簇之间的分离程度。其取值范围在-1到1之间,值越大表示聚类效果越好。
        举例说明:对于样本x,轮廓系数计算如下:(b-a)/max(a,b),其中a表示x与同簇其他样本的平均距离,b表示x与与簇外最近的样本的平均距离。

2. 外部质量度量:将聚类结果与某个“参考模型”(reference model)进行比较。

        Rand指数用于比较聚类结果和真实标签之间的相似性。其取值范围在0到1之间,值越大表示聚类效果越好。
        举例说明:假设样本集中有100个数据点,其中有70个数据点被正确地归为同一簇,另外30个数据点被错误地归为同一簇,则Rand指数计算如下:(70+30)/(C 100 2),其中C 100 2表示从100个样本中选取两个的组合数。

总的来说,内部质量度量和外部质量度量是用于评估聚类算法效果的重要指标,它们能够帮助我们选择最佳的聚类算法和调整聚类算法的参数。


12.以PCA为例,维度个数的选定有几种方式?

        PCA是一种常用的降维技术,它将高维数据转换到低维空间中,从而在保留尽可能多的原始信息的同时,减少了模型的复杂度和存储空间的开销。维度个数的选定通常有以下几种方式:

        1. 方差解释率:选取前k个主成分,使得它们的方差解释率之和达到预先设定的阈值,例如95%或99%等。这种方式可以保留大部分原始信息,并减少数据的冗余。

        2. 满足特定应用需求:在实际应用中,我们可能需要对数据进行特定的处理或者建立特定的模型,因此需要选取与应用需求相关的主成分个数。例如,在图像识别领域,我们可以选择保留足够多的主成分来提取图像的关键特征。

        3. Scree plot:Scree plot是一种可视化方法,它将主成分的编号与其对应的方差值作为坐标轴,画出一条折线,通过观察折线的形态来确定合适的主成分个数。具体来说,我们可以找到折线变化最为显著的位置作为主成分个数的界限。

        4. 累积贡献率:累积贡献率是指前k个主成分的方差解释率之和, 是一种评估模型表现的方式。如果累积贡献率大于预设阈值,我们就可以将前k个主成分作为降维后的特征。

不同的选定方式具有不同的优缺点,并且在实际应用中需要根据具体情况选择合适的方法。


13.简单描述下PCA算法流程。

        PCA(Principal Component Analysis)主成分分析是一种基础的降维算法,可以将高维数据压缩到低维空间中。其流程通常包括以下几个步骤:

1. 数据预处理:对原始数据进行中心化处理(即减去均值),使得各维特征之间的量级相同。

2. 求协方差矩阵:计算特征集合的协方差矩阵。协方差矩阵描述了特征向量之间的相关性,是PCA算法的重要基础。

3. 特征值分解:对协方差矩阵进行特征值分解,得到特征值和相应的特征向量。

4. 特征向量排序:按照特征值从大到小的顺序对特征向量进行排序,选择前k个特征向量组成一个新的k维特征子空间,其中k是我们需要降维的目标维度。

5. 生成降维后的特征数据:将原始数据映射到这个k维的新特征空间中,得到一个新的低维数据集。

        需要注意的是,PCA算法通常需要使用一些现有库或框架来实现具体的计算过程,这些库中已经封装好了PCA算法中的各项计算和优化操作,使得整个流程更加高效和易于使用。同时,在进行PCA降维时,需要根据具体问题选择合适的维度个数和特征子空间,以保证在不同场景下的最佳性能表现。


14.降维和特征选择的相同和不同之处?

        降维和特征选择都是常见的特征工程方法,它们在数据预处理中起到了重要的作用,但二者的主要思路和目标不同。

相同之处:

        1. 都可以对高维数据进行处理,减少特征数量和数据维度,提高计算效率和模型表现。

        2. 都可以通过筛选特征变量,去除那些与目标变量相关性低的或者冗余的特征,从而提取更具有代表性的特征子集。

        3. 都可以有效地解决数据过拟合和噪声干扰等问题,提高模型的泛化能力和鲁棒性。

不同之处:

        1. 目标不同:降维的目标是在保留尽可能多的原始信息(例如方差、协方差等)的情况下,将高维数据转换到低维空间中;而特征选择的目标则是找到与目标变量相关性高的特征,排除与目标变量相关性低的或者冗余的特征。

        2. 方法不同:降维通常采用主成分分析(PCA)或线性判别分析(LDA)等数学方法来实现特征空间变换和投影操作;而特征选择则可以采用基于过滤、包装和嵌入等不同策略的算法,如卡方检验、互信息、递归特征消除等方法进行特征选择。

        3. 结果不同:降维通常会生成包含原始数据所有变量的新特征子集,但特征的重要程度已经发生了变化;而特征选择会生成一个包含部分特征变量的新特征子集,在模型建立的过程中直接使用这些被选出的特征变量。

        总体上,降维和特征选择是两种不同的特征工程方法,各自适用于不同的场景和问题,实际应用时需要根据具体情况进行选择。


15.(计算题)提供一个西瓜数据集,使用ID3方法计算首个属性节点。

16.(计算题)提供一个混淆矩阵,让学生计算查准率和查全率
 


如果考试挂科,并不负任何挂科责任!!!

最终解释权归isxhyeah所有!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36603.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【回答问题】ChatGPT上线了!请使用C++语言写一个谷歌 LaMDA模型?

【回答问题】ChatGPT上线了!请使用C++语言写一个谷歌 LaMDA模型? 很高兴为您服务!您可以使用以下 C 语言代码来实现 Google LaMDA 模型: 复制 #include <stdio.h> #include <stdlib.h> #include <string.h>#define MAX

Edge解决默认Bing搜索跳转到国内版的问题

近期BingGPT申请通过以后&#xff0c;每次用PC端Edge去跳转的时候不管是否念Proxy咒都会进入国内版本Bing&#xff0c;排查得到默认Bing参数如下 因此&#xff0c;在edge://settings/searchEngines内添加搜索引擎&#xff0c;具体参数如下&#xff1a; 搜索引擎&#xff1a;必应…

微软Bing突然爆炸级更新!BingChat全面开放,下一代搜索要来啦!

夕小瑶科技说 分享 来源 | 量子位 作者 | 杨净 明敏 所有人都能上手微软Bing了&#xff01; 今天&#xff0c;微软突然官宣全面开放BingChat&#xff1a; 无需任何等待。只需注册一个账户&#xff0c;首页即可体验。 更关键的是&#xff0c;还有一大堆堪称“家底”的新功能来…

ChatGPT 让 Python 爬虫再次伟大!

ChatGPT 的爆火改变了很多东西&#xff0c;就与多年前移动互联网的普及一样&#xff0c;我们正处于 AI 改变世界的前夜。 在 OpenAI 为其推出了 GPT-4 语言模型后&#xff0c;ChatGPT 的回答准确性有了极大提高&#xff0c;也具备了更高水平的识图能力&#xff0c;这让 ChatGPT…

程序员离开上海回农村会后悔吗?年薪50万,存款180万,想回老家建别墅,搞自媒体,过田园生活!

现代版的“归园田居”什么样&#xff1f; 来看一位网友的案例&#xff1a;想离开上海回农村建个别墅&#xff0c;会后悔吗&#xff1f; 1.想回去的原因&#xff1a;和老公在上海八年&#xff0c;觉得日子真没意思&#xff0c;我们都喜欢田园生活&#xff0c;互联网也不可能有…

花几万元报IT培训班,只为进入互联网大厂:有人年薪百万,有人黯然退场

俗话说&#xff0c;英雄不问出处。但在职场中&#xff0c;“出处”却是一个敏感的话题&#xff0c;是否拥有高学历、大厂背景&#xff0c;是否是科班出身&#xff0c;这些都是招聘方会考虑的重要因素。 程序员千千万万&#xff0c;出身也是五花八门&#xff0c;有人是985高校计…

AIGC热门技术岗平均年薪超百万,脉脉林凡认为白领可能先于蓝领失业

3月&#xff0c;国内外AIGC新品相继发布引发热议&#xff0c;AIGC的人才需求也更加旺盛。脉脉高聘人才智库近期发布《2023 AIGC人才趋势报告》&#xff0c;数据显示&#xff0c;AIGC人才供需结构性失衡&#xff0c;热招岗位偏技术岗位&#xff0c;以算法工程师、自然语言处理、…

一位失业的P9,以及他的四页半简历

前几天在脉脉上看到一个热帖&#xff0c;是刚从PDD毕业的P9级别员工吴可发的&#xff0c;同时附上了他的简历&#xff0c;这个简历很有意思&#xff0c;基本上和国内互联网这十多年来的发展步骤重叠&#xff0c;能够反映出&#xff0c;在这样一个跌宕起伏的时代里&#xff0c;个…

程序员想要年薪五十万,需要付出多少努力?

关 &#x1f381;福利&#x1f381; 全网最全《Python学习资料》免费赠送&#x1f193;&#xff01; 最近火热ChatGPT 等人工智能应用对 Python 编程语言产生了积极的影响&#xff0c;它推动了 Python 的普及和发展&#xff0c;在文本处理和 NLP 领域提升了 Python 的地位&…

Meta员工年薪高达 213 万元,反超谷歌成 top 1,网友:“还是别人家公司香!”...

整理 | 朱珂欣 出品 | CSDN程序人生&#xff08;ID&#xff1a;coder_life&#xff09; 硅谷寒冬之下&#xff0c;有人猜测科技公司会「降本增效」&#xff0c;在员工薪酬上精打细算。 出人意料的是&#xff0c;事实恰恰相反。 据《华尔街日报》最新报道&#xff0c;多家公司…

网传美团今年应届生年薪 35w+,严重倒挂老员工,为什么互联网大厂校招的薪资一年比一年高?

1 为什么薪资越来越高&#xff1f; 10月27日&#xff0c;“网传美团今年应届生年薪 35w&#xff0c;严重倒挂老员工&#xff0c;为什么互联网大厂校招的薪资一年比一年高&#xff1f;”话题&#xff0c;登上知乎热搜。 从网上信息来看&#xff0c;今年美团给2021届校招算法方…

夫妻双方都是大厂程序员,20年攒了一千万?!

最近网站上有这么一个帖子&#xff0c;话题一度引起了众多网友的关注。 发贴的人本身是一名程序员&#xff0c;刚刚从老家来到上海&#xff0c;想在这个城市扎根&#xff0c;但是靠自己目前的薪资买房还是有些困难&#xff0c;这让他不由的好奇&#xff0c;如果双方都是大厂程…

赵天奇:真正的元宇宙级虚拟数字人

心理学研究表明&#xff0c;在人类接收到的信息中&#xff0c;有83%来自于视觉&#xff0c;11%来自于听觉。而在VR等技术发展成熟之后&#xff0c;叠加嗅觉、触觉和味觉等技术&#xff0c;可以让人们高度沉浸在数字信息中&#xff0c;体验到置身在元宇宙中的感觉。 这一颠覆性…

营销新赛道:虚拟数字人

2021年10月Facebook改名Meta&#xff0c;引爆全球范围的元宇宙热&#xff0c;和Web 3.0相比较&#xff0c;元宇宙是一个完整的生态&#xff0c;而Web 3.0特指一种交互方式和实现方法&#xff0c;两者之间的关系类似于移动互联网与HTML 5。在元宇宙生态下&#xff0c;营销的3要素…

虚拟数字人展现多元商业价值,数字人技术成为品牌营销新拐点

随着Z世代消费人群的崛起和元宇宙概念的迅速发展&#xff0c;各行各业对虚拟化内容与服务的需求不断增长&#xff0c;在这样的环境下&#xff0c;给虚拟数字人带来了良好的市场。据花旗银行预测&#xff0c;到 2030 年&#xff0c;元宇宙的用户总数将达到 50 亿人&#xff0c;元…

虚拟数字人全面落地的四个挑战:技术、产品、市场、法律

近两年&#xff0c;虚拟数字人随着元宇宙的风潮得到了许多人的关注。在国内&#xff0c;虚拟数字人在一些领域开始应用&#xff0c;例如直播带货、客服等。虽然虚拟数字人看起来有很好的前景&#xff0c;但实际上虚拟数字人要想得到全面的落实&#xff0c;仍然还有很长的一段路…

一文了解,AI圈大火的虚拟数字人到底是什么?

近年来&#xff0c;人工智能技术的发展和应用已经成为科技领域的热门话题。AI不仅可以帮助人们解决各种问题&#xff0c;还可以提高生产效率、改善生活质量等方面做出贡献。而虚拟数字人作为AI技术的一种应用&#xff0c;也在不断地发展和应用&#xff0c;为人们带来更多的便利…

虚拟数字人服务商世优科技入选“2023中国数字人TOP100榜单”

近日&#xff0c;第十一届电子信息博览会在深圳福田会展中心隆重召开&#xff0c;作为本次博览会核心论坛“2023中国数字人大会”胜利启幕。中国数字人大会以“AI2.0、Web3.0&#xff0c;数字人引爆元宇宙”为主题&#xff0c;超千人与会&#xff0c;国内外多位院士&#xff0c…

边无际首发ChatIoT:AI大模型从数字世界向物理世界迈进

将大模型的能力带到物理世界&#xff0c;除了微软、谷歌&#xff0c;还有一家中国的创业公司。边无际作为专注于物联网开发平台研发的科技公司&#xff0c;紧跟AI大模型带来的生产力变革&#xff0c;首发ChatIoT&#xff0c;率先将大模型的技术应用于物联网领域。 在微软、谷歌…

星链系统简介

星链 星链&#xff0c;是美国太空探索技术公司的一个项目&#xff0c;太空探索技术公司计划在2019年至2024年间在太空搭建由约1.2万颗卫星组成的“星链”网络提供互联网服务&#xff0c;其中1584颗将部署在地球上空550千米处的近地轨道&#xff0c;并从2020年开始工作。 试验…