机器学习保研面试问答

最近在准备东南palm实验室的面试,准备了这些问题。

参考:(81条消息) 保研面试/考研复试机器学习问题整理机器学习考研一匹好人呀的博客-CSDN博客

(81条消息) 保研考研面试—机器学习机器学习考研moluggg的博客-CSDN博客

[(81条消息) 夏令营]——东南大学计科院&PALM实验室夏令营随笔东南大学palm实验室Muasci的博客-CSDN博客

1、说一下F1值的计算(精确率、召回率、精确度)

正例反例
正例TP(真正例)FN(假负例)
反例FP(假正例)TN(真负例)

TP(True Positive):预测答案正确 TN(True Negative):其他类预测为其他类(负类判定为负类) FP(False Positive):错将其他类预测为本类 FN(False Negative):本类标签预测为其他类

准确率:所有的预测正确(正类预测为正类,负类预测为负类)的占总的比重。

精确率:指被分类器判定正例中的正样本的比重

召回率:指的是被预测为正例的占总的正例的比重

F1值: F1值就是Precision和Recall的调和平均数,如果只考虑精确度或者只考虑召回率都不能够作为评价一个模型好坏的指标,所以使用F1值来调和两者,兼容到精确度和召回率。 F1值最大值为1,最小值为0,精确度越高越好,召回率越高越好,可以在0~1的这个值域内,F1越大越好。

img

准确率Accuracy---分类器到底分对了多少? Accuracy = (1+5)/(1+2+1+5) = 0.67

精确率Precision---返回的图片中正确的有多少? Precision = 1/(1+2) = 0.33

召回率Recall---有多少张应该返回的图片没有找到? Recall = 1/(1+1) = 0.5

F1值---Precision与Recall的调和平均 F1score = (2∗0.33∗0.50)/(0.33+0.50) = 0.40

参考:(81条消息) 准确率、精确率、召回率、F1值、ROC/AUC整理笔记f1值计算公式【网络星空】的博客-CSDN博客

(81条消息) 准确率、精确度、召回率以及F1值的理解和作用f1值的意义新手村的一只汪的博客-CSDN博客

(81条消息) 分类模型的评估指标(1)--Accuracy、Precession、Recall、F1score的计算公式_precession recall_Okay灬的博客-CSDN博客

2、说一下CNN

以后更新吧,来不及写了。

3、说一下常见的数据挖掘算法

K-means算法(k均值算法)

算法流程: 1)随机选择k个点作为初始聚类的中心,由这个中心代表各个聚类 2)对任意一个样本,计算其到k个点的距离,将该样本归到距离最近的中心所在的聚类 3)计算聚类的平均值,即将聚类的中心移动到均值处。 4)重复2、3步的迭代,直到聚类的中心不再移动,此时算法收敛,迭代结束。 优点:原理简单、容易实现。 缺点:收敛太慢、算法复杂度高、需先确定K的个数、结果不一定是全局最优,只能保证局部最优。

kNN (k-近邻)算法

计算新样本与训练样本之间的距离,找到距离最近的K个邻居,根据这些邻居所属的类别来判定新样本的类别。如果邻居属于同一个类别,那么新样本也属于这个类;否则,对每个候选类别进行评分,按照某种规则确定新样本的类别。

决策树(ID3算法和C4.5算法)

ID3算法

熵是信息论中的概念,熵度量了事物的不确定性,越不确定的事物,它的熵就越大。当每件事物发生的概率相同时,它们发生的随机性最大,所以它们的熵也就越大。ID3算法就是用信息增益来判别当前节点应该用什么特征来构建决策树。某个特征的信息增益越大表示该特征对数据集的分类的不确定性减少的程度越高,越适合用来分类。 信息增益:构造好的决策树的关键在于如何选择属性。最常用的分类属性选择指标就是信息增益。信息增益用来衡量属性区分训练样例的能力。是指当前熵于两个新群组经过加权平均后的熵之间的差值。信息增益大的属性,其划分自己的纯度高(平均熵值校),分类能力强。

ID3的具体方法是:从根节点开始,对节点计算所有可能的特征的信息增益,选择信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点;再对子节点递归的调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为止。最后得到一个决策树。ID3相当于用极大似然估计法进行概率模型的选择。

案例参考:决策树——ID3算法id3决策树算法欧晨eli的博客-CSDN博客

ID3的缺点:

(1) ID3没有考虑连续特征,比如长度,密度都是连续值,无法在ID3运用。这大大限制了ID3的用途; (2)ID3采用信息增益大的特征优先建立决策树的节点,缺点是在相同条件下,取值比较多的特征比取值少的特征信息增益大。比如一个变量有2个值,各为1/2,另一个变量为3个值,各为1/3,其实他们都是完全不确定的变量,但是取3个值的比取2个值的信息增益大; (3) ID3算法对于缺失值的情况没有做考虑 (4) 没有考虑过拟合的问题。

C4.5算法

以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进,C4.5在生成的过程中,用信息增益比来选择特征。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。

参考:数据挖掘领域十大经典算法数据挖掘算法陈振阳的博客-CSDN博客

SVM(本科接触少,基本等于没学过)

支持向量机(SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面,可以将问题化为一个求解凸二次规划的问题。与逻辑回归和神经网络相比,支持向量机,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。

具体来说就是在线性可分时,在原空间寻找两类样本的最优分类超平面。在线性不可分时,加入松弛变量并通过使用非线性映射将低维度输入空间的样本映射到高维度空间使其变为线性可分,这样就可以在该特征空间中寻找最优分类超平面。

参考:机器学习:支持向量机(SVM)_燕双嘤的博客-CSDN博客

参考:数据挖掘领域十大经典算法数据挖掘算法陈振阳的博客-CSDN博客

4、说一下TCN

以后更新一下吧[狗头]

5、说一下傅里叶变换

一个满足某些条件的函数可以表示成三角函数或他们的积分形式的线性组合。

6、说一下深度学习和机器学习的区别和联系

机器学习:使用算法去解析数据,从中学习数据内部分布规律或者数据与数据、数据与标签之间的联系与差异,对新数据进行决定与预测。

深度学习:机器学习的一个子领域,它关心的是参照神经学科的理论构建神经网络,使用反向传播对大量未标注或半结构化的数据进行建模。

7、说一下交叉检验(Cross-Validation)

交叉验证用在数据不是很充足的时候。比如在我日常项目里面,对于普通适中问题,如果数据样本量小于一万条,我们就会采用交叉验证来训练优化选择模型。如果样本大于一万条的话,我们一般随机的把数据分成三份,一份为训练集(Training Set),一份为验证集(Validation Set),最后一份为测试集(Test Set)。用训练集来训练模型,用验证集来评估模型预测的好坏和选择模型及其对应的参数。把最终得到的模型再用于测试集,最终决定使用哪个模型以及对应参数。

交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。

根据切分的方法不同,交叉验证分为下面三种:   

第一种是简单交叉验证,所谓的简单,是和其他交叉验证方法相对而言的。首先,我们随机的将样本数据分为两部分(比如: 70%的训练集,30%的测试集),然后用训练集来训练模型,在测试集上验证模型及参数。接着,我们再把样本打乱,重新选择训练集和测试集,继续训练数据和检验模型。最后我们选择损失函数评估最优的模型和参数。

第二种是S折交叉验证(S-Folder Cross Validation)。和第一种方法不同,S折交叉验证会把样本数据随机的分成S份,每次随机的选择S-1份作为训练集,剩下的1份做测试集。当这一轮完成后,重新随机选择S-1份来训练数据。若干轮(小于S)之后,选择损失函数评估最优的模型和参数。

第三种是留一交叉验证(Leave-one-out Cross Validation),它是第二种情况的特例,此时S等于样本数N,这样对于N个样本,每次选择N-1个样本来训练数据,留一个样本来验证模型预测的好坏。此方法主要用于样本量非常少的情况,比如对于普通适中问题,N小于50时,我一般采用留一交叉验证。

参考:(81条消息) 交叉验证(Cross Validation)原理小结_weixin_34411563的博客-CSDN博客

8、说一下过拟合和欠拟合

过拟合:具体表现就是最终模型在训练集上效果好;在测试集上效果差。模型泛化能力弱。 过拟合的原因: 训练数据中噪音干扰过大,使得学习器认为部分噪音是特征从而扰乱学习规则。 建模样本选取有误,例如训练数据太少,抽样方法错误,样本label错误等,导致样本不能代表整体。 模型不合理,或假设成立的条件与实际不符。 特征维度/参数太多,导致模型复杂度太高。 过拟合解决办法: 增加数据,降低模型复杂度,数据降维,dropout层,early stopping ,加正则化项

欠拟合:是指对训练样本的一般性质尚未学好。在训练集及测试集上的表现都不好。 欠拟合的原因 模型复杂度过低,特征量过少 解决办法: 增加特征数,增加模型复杂度,减少正则化系数

9、说一下残差网络

当网络退化时,浅层网络能够达到比深层网络更好的训练效果,这时如果我们把低层的特征传到高层,那么效果应该至少不比浅层的网络效果差

参考:残差网络(Residual Network),残差连接(skip-connect)_HealthScience的博客-CSDN博客

10、说一下如何评估你的机器学习模型的有效性

① 数据集分割的有效性,如何分训练集与测试集(训练集过大,更接近整个数据集,但是由于测试集较小,导致评估结果缺乏稳定性;测试集大了,偏离整个数据集,与根据数据集训练出的模型差距较大,缺乏保真性。把训练样本本身的特有性质当做所有潜在样本都会具有的一般性质,进而导致泛化能力减小,出现“过拟合”的情况。)

② 性能指标(精确率,召回率,F1值)

11、说一下GCN

A是邻接矩阵,​是图的神经网络层之间的传递公式,GNN就是研究f应该是怎么样的,其中GNN中的GCN是这样做的:

其中W是需要训练的参数,D是度矩阵,​,​是单位矩阵。

其实中间的数学原理是最重要的,最开始不是对​进行处理,而是对​的对称规范化矩阵​进行处理,不过这样的计算复杂度还是很高,于是就用切比雪夫多项式的一阶近似得到了最终的传递公式。

这里参考了:图卷积神经网络(GCN)的数学原理详解——谱图理论和傅立叶变换初探哔哩哔哩bilibili

12、说一下1x1的卷积有什么用途

如果卷积的输出输入都只是一个平面,那么1x1卷积核并没有什么意义,它是完全不考虑像素与周边其他像素关系。但卷积的输出输入是长方体,所以1x1卷积实际上是对每个像素点,在不同的channels上进行线性组合(信息整合),且保留了图片的原有平面结构,调控depth,从而完成升维或降维的功能。

  • 可以实现信息的跨通道整合和交互

  • 具有降维和升维的能力,减少网络参数。这里的维度指的是卷积核通道数(厚度),而不改变图片的宽和高。

  • 在保持feature map 尺寸不变(即不损失分辨率)的前提下大幅增加非线性特性,既可以把网络做得很deep,也可以提升网络的表达能力

13、说一下梯度下降算法

批量梯度下降

批量梯度下降法是梯度下降法最原始的形式,它的具体思路是在更新每一参数时都使用所有的样本来进行更新。

优点:全局最优解;易于并行实现; 缺点:当样本数目很多时,训练过程会很慢。

小批量随机

随机梯度下降的思路是在每次迭代时,只使用一个样本,当样本个数很大的时候,随机梯度下降迭代一次的速度要远高于批量梯度下降方法。两者的关系可以这样理解:随机梯度下降方法以损失一部分精确度和增加一定数量的迭代次数为代价,换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。如果样本量很大的情况(例如几十万),那么可能只用其中几万条或者几千条的样本,就已经迭代到最优解了。

优点:训练速度快; 缺点:准确度下降,并不是全局最优。

14、说一下梯度爆炸和梯度消失的解决办法

梯度消失和梯度爆炸问题都是因为网络太深,网络权值更新不稳定造成的,本质上是因为梯度反向传播中的连乘效应。

针对梯度爆炸问题,解决方案是引入Gradient Clipping(梯度裁剪)。通过Gradient Clipping,将梯度约束在一个范围内,这样不会使得梯度过大。

15、说一下chatgpt

在大规模数据上进行无监督学习和训练,小规模数据上进行微调。

ChatGPT通过大量无监督预训练和有监督微调实现,并具有在多种任务中泛化能力。

其主要特点有以下几点:

  • 大量数据预训练:模型使用大量文本数据进行预训练,有助于模型学习通用的语言知识;

  • 微调优化:在预训练之后,模型使用有标签数据进行微调,提升特定任务的性能;

  • 高效生成与控制:ChatGPT可以生成连贯、自然且准确的回复,同时提供了生成策略的控制。

在什么领域有十分大的潜力:客户支持(顾问)、教育、语言翻译、新闻自动写作、情感分析

16、说一下空洞卷积

空洞卷积也叫扩张卷积或者膨胀卷积,简单来说就是在卷积核元素之间加入一些空格(零)来扩大卷积核的过程。

空洞卷积主要有三个作用:

1、扩大感受野。但需要明确一点,池化也可以扩大感受野,但空间分辨率降低了,相比之下,空洞卷积可以在扩大感受野的同时不丢失分辨率,且保持像素的相对空间位置不变。(池化就是取出一个区域的代表像素,然后做卷积)简单而言,空洞卷积可以同时控制感受野和分辨率。

2、获取多尺度上下文信息。当多个带有不同卷积扩张率dilation rate的空洞卷积核叠加时,不同的感受野会带来多尺度信息,这对于分割任务是非常重要的。

3、可以降低计算量,不需要引入额外的参数,如上图空洞卷积示意图所示,实际卷积时只有带有红点的元素真正进行计算。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/58355.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

PL/SQL Developer - SQL Monitoring Report 查看华丽丽的执行报告

通过PL/SQL Developer中SQL Monitoring Report的功能,查看华丽丽的执行报告和实际执行计划。 注意事项: 1. 执行sql之后才会生成session,才能生成华丽丽的执行报告。正因如此这里的执行计划是实际执行计划,和explain plan for的预…

华丽丽的未来分界线!

经过一番慎重的考虑,我终于做了一个决定:从今天开始,办公室和笔记本电脑统统格调linux,只要windows! 人的精力是有限的,要学会合理分配自己的精力和时间。对linux的深究已经对我的科研没有任何帮助了&#…

活动丨4场直播华丽丽来袭,快来参与

1. 【推荐】聚数智赢未来——云和恩墨2020年夏季产品发布会(2020-06-10) 云和恩墨作为数据资产端到端的解决方案提供商,多年来围绕数据提供安全、统一、连续、高效的产品和服务。本次2020年夏季产品发布会,我们以“聚数智赢未来”…

“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作

一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于…

【万里征程——Windows App开发】使用华丽丽的字体

所有的TextBlock等都用的默认字体,大家是否会感觉很千篇一律很枯燥呢?对于FontFamily,我们见过一些可以用的字体,但这个属性不像Foreground等有下拉框,所以我们在应用中见过的许多有意思的字体却没法用,因为…

matlab画航线图,【图文详解】如何画出华丽丽的全球航线图

昨天GeoHey“用户分享”栏目出现了一个款新地图,该地图是由sshuair朋友发布的,在地图发布12个小时内访问量就达到了300多以上。麦穗第一眼看到这个地图的时候,也是被惊艳到了,庞大的数据量、缠绕的航班线,完全是一场华丽丽的视觉盛宴嘛!于是麦穗也按耐不住想要尝试的雀跃…

华丽丽的GridLayout-使用案例

最近在阅读一份开源代码时,发现有一个页面中并不是明显的网格样式,但layout里的根控件用的是GridLayout,才发现原来它是可以这样用的,原来不一定拘泥于页面布局是明显的网格形式,而是需要我们来把明显不是网格样式的布局来当成网格看待。–这里大家可能不一定立马理解,不…

linux mint桌面mac,Ubuntu/LinuxMint安装华丽丽的Elementary OS Pantheon桌面

谈起最美丽的Linux系统,不少人第一印象绝对就是Elementary OS,还有就是已经停止支持的仿Mac的的PearOS,这两款系统军师基于Ubuntu系统的发行版,而博主的电脑是Linux Mint 17 Xfce,同样是基于Ubuntu的linux系统&#xf…

ENViews, 一个华丽丽的动效控件库

ENViews 项目地址: codeestX/ENViews 简介:ENViews, 一个华丽丽的动效控件库 ENViews, A cool dynamic view library.All designed by Nick ButurishviliENViews, 一个华丽丽的动效控件库,所有控件原型取自Nick Buturishvili的设计作品 Previ…

Python | 想知道如何添加华丽丽的进度条吗?

对于开发或者运维来说,使用Python去完成一些跑批任务,或者做一些监控事件是非常正常的情况。那么如何有效的监控任务的进度,除了在任务中加上log外,还能不能有另一种方式来了解任务进展到哪一步了呢? 这就是今天我们来…

这个人间终究值得

2020.1.18 — 2020.4.18 \color{red}{2020.1.18—2020.4.18} 2020.1.18—2020.4.18,整整3个月的时间。鬼知道在这三个月里我经历了什么?但上帝知道呀! 漫长的春节 2020年1月18号即去年农历腊月24,和老大从 长 沙 \color{red}{长沙…

❤️爆肝3万字,最硬核丨Mysql 知识体系、命令全集 【建议收藏 】❤️

🍅 作者主页:不吃西红柿 🍅 简介:CSDN博客专家🏆、信息技术智库公号作者✌ 简历模板、PPT模板、学习资料、面试题库、技术互助【关注我,都给你】 🍅 欢迎点赞 👍 收藏 ⭐留言 &am…

正宗佛祖注释-原装正版

网上也有很多佛祖的注释,但是中心都没有“卍”字标识,请认准卍字标识,谨防假冒(注意:是"卍"字,而不是"卐"字)。 佛曰: 心存慈善,何须努力看经,意欲损人&#xf…

红烧排骨怎么做(红烧排骨正宗做法)

声明:整理自bilibili up主投稿 侵权删 链接:超子美食 备菜 排骨 放入清水中浸泡半个小时(王刚的做法是放入清水中加小苏打(碳酸氢钠)抓,我结合了一下)泡出血水 小料 葱姜蒜,一小…

正宗的 Tenengrad 梯度函数

版权声明:本文为博主原创文章,未经博主允许不得转载。 Tenengrad 梯度函数 Tenengrad 梯度函数采用Sobel算子分别提取水平和垂直方向的梯度值,基与Tenengrad 梯度函数的图像清晰度定义如下: G(x,y)如下&…

【原创】新韭菜日记55--20190412----各行业龙头股

1 家电: 格力 美的 苏宁 2 船舶:中国船舶 3 氢能源 :熊涛,全柴,美景,凯龙 4 工业大麻 5 造纸 岳阳林纸 央企生态唯一? 6 7 银行 宁波银行,南京银行,招商银行&a…

2017区块链概念股龙头

在价值尺度职能方面。市场投机行为造成了比特币价格的大起大落,比特币无法通过调节供应量来稳定比特币价格,因此目前尽管比特币受到越来越多人的追捧,有潜力被大众广泛接受,然而比特币币值的不稳定性使得它不具备良好的价值尺度职…

区块链概念正宗龙头股

尽管能够找到一些有千丝万缕关系的理论做支撑,不认可也无法阻止比特币成为货币,但是比特币作为一种货币得到人们的认可需要很长的过程,甚至可能无法达成。 现代人已经习惯货币是由家创造的,家赋予货币拥有价值。比特币并不是一种…

ChatGPT的未来:人工智能技术的新发展趋势

第一章:人工智能技术的新发展趋势 近年来,随着人工智能技术的不断发展和应用,ChatGPT这样的大型自然语言处理模型已经成为人工智能技术的重要组成部分。未来,人工智能技术的发展将更加快速,我们可以看到以下几个方面的…

怎么利用邮件开发客户?

做外贸的很多企业都习惯使用邮件作为沟通工具,所以我们也可以利用邮件发送开发信来进行客户开发。 为什么外贸企业喜欢使用邮件呢? 原因 1、使用习惯 不同于我们国家习惯使用微信沟通,邮件始终是外国人在进行商务、营销、日常沟通等场合下…