1.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C )
A.频繁模式挖掘 B.分类和预测 C.数据预处理 D.数据流挖掘
解析:数据预处理是数据分析和数据挖掘的重要步骤之一,包括数据清洗、集成、变换、规约(如维度规约、数值规约)等。这些步骤的目的是为了改善数据质量,使其更适合于后续的分析和挖掘任务。
频繁模式挖掘:这是数据挖掘中的一种技术,用于发现数据集中频繁出现的模式或项集。
分类和预测:这是数据挖掘的目标之一,分类是对数据进行分类,预测是预测未来的值或趋势。
数据流挖掘:这是处理连续到达的数据流(如实时数据)的挖掘技术。
2.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( B )。
A.层次聚类 B.划分聚类 C.非互斥聚类 D.模糊聚类
解析:划分聚类是将数据集划分为K个(K是给定的)不重叠的子集(或称为簇),每个数据点都属于且仅属于一个簇。
层次聚类:这是一种聚类方法,创建了一个层次化的聚类树,其中每个簇都是树中的一个节点。
非互斥聚类:这不是一个标准的聚类类型术语。在聚类中,数据点通常被分配到唯一的簇中,因此它们是“互斥”的。但有一些聚类方法(如模糊聚类)允许数据点以某种程度属于多个簇,但这与“非互斥”的定义不完全一致。
模糊聚类:这是一种聚类方法,其中每个数据点可以以不同的隶属度属于多个簇。
3.下表是一个购物篮,假设支持度阈值为40%,其中( AD )是频繁闭项集。
TID 项
1 abc
2 abcd
3 bce
4 acde
5 de
A.abc B. ad C.cd D.de
解析:在关联规则挖掘中,频繁项集是指满足最小支持度阈值的项集。支持度是指项集在所有事务中出现的频率。给定支持度阈值为40%,即至少需要在40%的事务中出现才被认为是频繁的。
计算每个项集的支持度,找出频繁项集(即支持度大于或等于40%的项集):
最后,频繁闭项集是那些没有超集的频繁项集。我们可以看到,de 没有更大的项集(如ade或bde)是频繁的,因此de是频繁闭项集。
频繁闭项集是一个频繁项集,且它的所有超集都不是频繁的。
- abc 的超集 abcd 和 abce 都不是频繁的(因为支持度低于40%),所以 abc 是频繁闭项集。
- ad 的超集 ade 是频繁的(支持度为 80%),所以 ad 不是频繁闭项集。
- cd 的超集 cde 是频繁的(支持度为 60%),所以 cd 不是频繁闭项集。
- de 本身就是一个项集,没有超集,且是频繁的,但没有任何超集。
4.Nave Bayes是一种特殊的贝叶斯分类器,特征变量是X,类别标签是C,它的一个假定是:(C )。
A.各类别的先验概率P(C)是相等的
B.以0为均值,sqr(2)/2为标准差的正态分布
C.特征变量X的各个维度是类别条件独立随机变量
D.P(X|C)是高斯分布
解析:Nave Bayes分类器基于一个关键假设:特征变量(给定类别下)是类别条件独立的随机变量。这意味着,在给定类别的条件下,一个特征的出现概率不会受到其他特征的影响。
Nave Bayes(朴素贝叶斯)分类器是一种特殊的贝叶斯分类器,其中特征变量是X,类别标签是C。
A选项朴素贝叶斯并不要求各类别的先验概率相等。
B选项以0为均值,sqr(2)/2为标准差的正态分布。描述了一个特定的正态分布,但并不是朴素贝叶斯分类器的基本假定。朴素贝叶斯分类器可以处理各种分布的数据,而不仅限于正态分布。
C. 特征变量X的各个维度是类别条件独立随机变量,这是朴素贝叶斯分类器的核心假定。它假设在给定类别C的条件下,特征变量X的各个维度(即各个特征)是相互独立的。这意味着一个特征的出现概率不会受到其他特征的影响,从而简化了模型的计算。
D选项,朴素贝叶斯可以处理不同类型的特征分布,包括但不限于高斯分布。
5.某超市研究销售记录数据后发现,买啤酒的人很大概率也会购买尿布,这属于数据挖掘的哪类问题?( A )
A.关联规则发现 B.聚类 C.分类 D.自然语言处理
解析:买啤酒的人很大概率也会购买尿布是一个典型的关联规则发现问题。关联规则挖掘用于发现数据集中项之间的有趣关系,如“如果购买了A,那么很可能也会购买B”。在这个例子中,A是啤酒,B是尿布。
6.()是一个观测值,它与其他观测值的差别很大,以至于怀疑它是由不同的机制产生的。
A.边界点 B.离群点 C.核心点 D.质心
解析:离群点(Outlier)是一个观测值,它与其他观测值存在显著的差异,以至于怀疑它可能是由不同的机制产生的。
边界点:边界点指的是位于不同聚类边缘或边界上的数据,不属于任何特定的聚类中心,而是位于两个或多个聚类之间的区域,它们只是位于聚类的边缘。
核心点:核心点指的是聚类内部的点,即距离聚类中心较近的点,往往代表了聚类的主要特征和结构,核心点不受到离群点的影响,因为它们位于聚类的中心区域。
质心:质心通常用于描述一个集合(如聚类)的中心或重心。在聚类分析中,质心可以是一个点(如平均值点),用于表示聚类中所有点的中心位置。质心在迭代聚类算法(如K-means算法)中起着重要作用,因为它可以帮助确定新的聚类中心位置。然而,质心本身并不是一个观测值,而是由观测值计算得出的一个统计量。
7.影响聚类算法效果的主要原因有(ABC)。
A.特征选取 B.模式相似性测度
C.分类准则 D.已知类别的样本质量
解析:聚类的目标是使同一类对象的相似度尽可能地大;不同类对象之间的相似度尽可能地小。
特征选取的差异会影响聚类效果(A正确)。
聚类的目标是使同一类对象的相似度尽可能地大,因此不同的相似度测度方法对聚类结果有着重要影响(B正确)。
由于聚类算法是无监督方法,不存在带类别标签的样本,因此,D选项不是聚类算法的输入数据。
8.在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本有10万条数据,负样本只有1万条数据,以下最合适的处理方法是( ACD)。C
A.将负样本重复10次,生成10万样本量,打乱顺序参与分类
B.直接进行分类,可以最大限度地利用数据
C.从10万正样本中随机抽取1万参与分类
D.将负样本每个权重设置为10,正样本权重为1,参与训练过程
解析:在正负样本数据量不等的情况下,通常采取的措施是调整样本的权重,而不是简单地重复样本或随机抽取样本。D选项中将负样本的权重设置为10,正样本的权重设置为1,是一种常用的做法,以平衡正负样本对分类器训练的影响。
A.重采样,改变数据分布消除不平衡
C欠采样, 提高少数类的分类性能,可能丢失多数类的重要信息
9.在数据清理中,处理缺失值的方法是(ABCD )。
A.估算 B.整列删除 C.变量删除 D.成对删除
解析:在数据清理中,处理缺失值的方法通常包括估算(如使用均值、中位数、众数等填充缺失值)、整列删除(如果某列缺失值过多)、变量删除(如果某个变量缺失值过多)等。
成对删除(pairwise deletion)是一种特殊的处理缺失值的方法。在这种方法中,使用一个特殊码(通常是9、99、999等)来代表无效值和缺失值,同时保留数据集中的全部变量和样本,是一种保守的处理方法,最大限度地保留了数据集中的可用信息。
10.Apriori算法的计算复杂度受(ABCD )影响。
A.项数(维度) B.事务平均宽度 C.事务数 D.支持度例值(阈值?)
解析:
Apriori算法的计算复杂度主要受到以下因素的影响:
A. 项数(维度):即数据集中的特征或属性的数量。
B. 事务平均宽度:每个事务(或记录)中包含的平均项数。
C. 事务数:数据集中的事务或记录的总数。
D.支持度例值(即支持度阈值)较低支持度阈值会使得频繁项变多,从而增加计算复杂度
11.在关联规则中,有三个重要的指标:支持度(support)、可信度(confident)、提升度(lift),则对于规则X->Y的三个指标说法错误的是(C )。其中,N表示所有的样本item 数目。
A.support = freq(X,Y)/N
B.confident = freq(X,Y)/freq(x)
C.lift = freq(X,Y)/freq(Y)
D.lift = freq(X,Y)*N/(freq(X)*freq(Y))
解析:
支持度是两件商品在所有购物车中同时出现的概率,可以记录为P(A U B)。支持度的计算公式为A,B两件物品同时出现的次数与购物车总数的比率。
单件商品的支持度的计算方法与两件商品一样
可信度是一个条件概率,两件商品其中一件出现在购物车中时,另一件也会出现的概率。可以记录为P(B|A)。
作用度通过衡量使用规则后的提升效果来判断规则是否可用,简单来说就是使用规则后商品在购物车中出现的次数是否高于商品单独出现在购物车中的频率。如果大于1说明规则有效,小于1则无效。
12.假设某同学使用 Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度弄重复了,那么下面关于NB的说法中,正确的是(B )。
A.这个被重复的特征在模型中的决定作用会被加强
B.模型效果相比无重复特征的情况精确度会降低
C.NB可以用来进行最小二乘回归
D.当两列特征高度相关时,无法用两列特征相同时得到的结论来分析问题
解析:NB的核心在于它假设向量的所有分量之间是独立的。在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分。而两个维度重复的情况下,模型效果相比之下精确度会降低。
13.下列方法中,可以用于特征降维的方法包括(ABCD )。
A.主成分分析(PCA)
B.线性判别分析(LDA)
C.深度学习SparseAutoEncoder
D.矩阵奇异值分解(SVD)
E.最小二乘法
解析:主成分分析 PCA 、线性判别分析 LDA 、AutoEncoder、矩阵奇异值分解 SVD 都是用于特征降维的方法。最小二乘法是解决线性回归问题的算法,但是并没有进行降维。
14.关于线性回归的描述,以下正确的是(BCE )。
A.基本假设包括随机干扰项是均值为0.方差为1的标准正态分布
B.基本假设包括随机干扰项是均值为0的同方差正态分布
C.在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量
D.在违背基本假设时,模型不再可以估计
E.可以用DW检验残差是否存在序列相关性
F.多重共线性会使得参数估计值方差减小
解析:一元线性回归的基本假设有
1、随机误差项是一个期望值或平均值为0的随机变量;
2、对于解释变量的所有观测值,随机误差项有相同的方差;
3、随机误差项彼此不相关;
4、解释变量是确定性变量,不是随机变量,与随机误差项彼此之间相互独立;
5、解释变量之间不存在精确的(完全的)线性关系,即解释变量的样本观测值矩阵是满秩矩阵;
6、随机误差项服从正态分布
当存在异方差时,普通最小二乘法估计存在以下问题: 参数估计值虽然是无偏的,但不是最小方差线性无偏估计。
杜宾-瓦特森(DW)检验,统计分析中常用的一种检验序列一阶 自相关 最常用的方法。
违背基本假设的计量经济学模型是可以估计的。
多重共线性使参数估计值的方差增大
15.假设属性income的最大/最小值分别是12000元和98000元。利用最大/最小规范化的方法将属性的值映射到0~1的范围内。对属性 income,73600元将被转化为:(D )
A.0.821 B.1.224 C.1.458 D.0.716
解析:(73600-12000)/(98000-12000)=0.7163
16.只有非零值才重要的二元属性被称作(C)。
A.计数属性 B.离散属性
C.非对称的二元属性 D.对称属性
解析:二元属性:二元属性是一种标称属性,只有两种类别(状态):0和1。通常0表示该属性不出现,1表示出现。非对称性:非对称的属性意味着出现非零属性值才是重要的。
A.计数属性:计数属性是离散的,也是比率属性。
B.离散属性:离散属性具有有限或无限可数个值,但并未特指二元属性,也不涉及非对称性的概念。
D.对称属性:对称属性意味着两种状态具有同等价值且相同的权重,与非对称属性相对立。
17.将原始数据进行集成、变换、维度规约、数值规约是以下哪个步骤的任务?(C)
A.频繁模式挖掘 B.分类与预测
C.数据预处理 D.数据流挖掘
解析:见题1
18.下面哪种不属于数据预处理的方法?(C)
A.变量代换 B.离散化 C.聚集 D.估计遗漏值
解析:
A. 变量代换:用于将原始数据中的变量转换为新的变量,以改善数据的可解释性、减少数据冗余或满足特定分析的需求。
B. 离散化:用于将连续的数值型数据转换为离散的分类标签。这种转换在需要将连续数据转化为分类问题时非常有用,比如在某些机器学习算法中。
C. 聚集:聚集(aggregation)只是一种分析方法。
D.估计遗漏值是处理遗漏值的一个步骤或方法。
19.设X={1,2,3}是频繁项集,则可由X产生(C)个关联规则。
A.4 B.5 C.6 D.7
解析:关联规则是从频繁项集中产生的,它描述了项之间的某种关系。给定一个频繁项集X,关联规则的产生通常是基于这个项集的所有可能子集。对于项集X={1,2,3},生成以下关联规则:
从{1,2,3}中选择1个项作为前件(antecedent),剩余2个项作为后件(consequent):
1 → 2, 3
2 → 1, 3
3 → 1, 2
从{1,2,3}中选择2个项作为前件,剩余1个项作为后件:
1, 2 → 3
1, 3 → 2
2, 3 → 1
总共有 3 + 3 = 6 个关联规则。
20.一个对象的离群点得分是该对象周围密度的逆。这是基于(C )的离群点定义。
A.概率 B.邻近度 C.密度 D.聚类
解析:一个对象的离群点得分是其周围密度的逆。这意味着一个对象周围的密度越低,其离群点得分就越高,即该对象更可能是离群点。
A. 概率:概率通常与随机事件发生的可能性有关,而不是直接描述一个对象的周围密度。
B. 邻近度:邻近度通常用于描述对象之间的接近程度,但它不直接表示对象周围的密度。
C. 密度:密度直接描述了某一区域内对象的聚集程度。一个对象的离群点得分与其周围密度成反比,正好符合密度的定义。
D. 聚类:聚类是将数据集中的对象分成不同的类或簇的过程,它更多地关注对象之间的相似性和不同性,而不是单个对象的密度。
21.利用Apriori算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3项集,在候选2项集中需要剪枝的是(BD)。
ID 项集
1. 面包、牛奶
2. 面包、尿布、啤酒、鸡蛋
3. 牛奶、尿布、啤酒、可乐
4. 面包、牛奶、尿布、啤酒
5. 面包、牛奶、尿布、可乐
A.啤酒、尿布 B.啤酒、面包 C.面包、尿布 D.啤酒、牛奶
解析:Apriori算法用于从数据集中发现频繁项集和关联规则。
该算法基于两个关键性质:
如果一个项集是频繁的,那么它的所有子集也都是频繁的。
如果一个项集是非频繁的,那么它的所有超集也都是非频繁的。
基于这些性质,Apriori算法使用候选项集来生成频繁项集。在生成候选k项集时,它仅考虑那些其(k-1)项子集都是频繁的项集。
计算每个2项集的支持度。
从给定的购物篮数据中,我们可以计算以下2项集的支持度:
面包、牛奶: 4次(ID 1, 4, 5 和作为面包、牛奶、尿布、啤酒/可乐的子集)
啤酒、尿布: 3次(ID 2, 3, 4)
面包、尿布: 4次(ID 2, 4, 5 和作为面包、牛奶、尿布、啤酒/可乐的子集)
啤酒、面包: 2次(ID 2, 4)
啤酒、牛奶: 2次(ID 2, 4)
为了找到支持度不小于3的候选3项集,我们需要考虑那些所有2项子集支持度都不小于3的项集。只有“面包、牛奶、尿布”的所有2项子集(面包、牛奶;面包、尿布;牛奶、尿布)的支持度都大于或等于3。
由于我们的目标是找到支持度不小于3的项集,那些支持度小于3的2项集在生成候选3项集时应该被剪枝。从上面的计算中,我们可以看到“啤酒、牛奶”和“啤酒、面包”的支持度是2,小于3,因此在生成候选3项集时应该被剪枝。
22.考虑值集{1,2,3,4,5,90},其截断均值(p=20%)是( C)。
A.2 B.3 C.3.5 D.5
解析:
截断均值是一种特殊的平均值,它在计算时排除了数据集中的一部分极端值。截断比例 p=20%,意味着我们要排除数据集中最大和最小共占 20% 的数据。
给定的数据集是 {1, 2, 3, 4, 5, 90}。数据集的长度是 6,所以 20% 的数据就是 0.2×6=1.2,但由于我们不能有“部分”数据点,我们需要向上取整到最接近的整数,即 2。
因此,我们需要从数据集中排除最大和最小的两个数,即 1 和 90。剩下的数据集是 {2, 3, 4, 5}。
计算剩余截断均值= (2+3+4+5)/4=3.5
23.假设用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱的值为(A )。
A.18.3 B.22.6 C.26.8 D.27.9
解析:
按箱平均值平滑方法是一种简单的数据平滑技术,其中数据被分成等宽的箱(或区间),然后每个箱中的数据被其平均值替换。箱的深度为3,意味着每个箱包含3个数据点(除了可能的第一和最后一个箱,它们可能包含少于3个数据点)。
首先需要将数据分成箱。由于箱的深度为3,可以这样分箱:
第一个箱: 13, 15, 16
第二个箱: 16, 19, 20
第三个箱: 20, 21, 22
...(以此类推)
现在,我们需要计算第二个箱的平均值。第二个箱包含的数据点是 16, 19, 20。
平均值 = (16 + 19 + 20) / 3 = 18.33(四舍五入到小数点后两位)
24.下列哪个不是专门用于可视化时间/空间数据的技术?( B)
A.等高线图 B.饼图 C.曲面图 D.矢量场图
解析:
等高线图:这是一种用于可视化二维数据的图表类型,它通过等高线来表示数据的等值线,它主要关注空间数据的可视化,但并不局限于时间数据。
曲面图:曲面图通常用于展示三维空间中的数据,可以很好地表示数据的空间分布和变化趋势。因此,它是专门用于可视化空间数据的技术之一。
矢量场图:矢量场图是一种用于表示矢量场(如磁场、速度场等)的可视化技术,它能够清晰地展示矢量的大小和方向在空间中的分布。
饼图不是专门用于可视化时间/空间数据的技术。它主要用于展示数据的占比关系,而不强调数据的空间分布或时间变化。
29.下面选项中t不是s的子序列的是()
25.根据规则集,灰熊属于什么类别?( C)
规则集:
r1:(胎生=否)^(飞行动物=是)→鸟类
r2:(胎生=否)^(水生动物=是)→鱼类
r3:(胎生=是)^(体温=恒温)→哺乳类
r4:(胎生=否)^(飞行动物=否)→爬行类
r5:(水生动物=半)→两栖类
A.鸟 B.鱼 C.哺乳 D.爬行
26.神经网络分类器的特点包括( ABC)。
A.普适近似,精度较高
B.噪声敏感
C.训练非常耗时
解析:
普适近似与精度较高:神经网络分类器由于其复杂的网络结构和大规模并行计算的能力,具有强大的学习和泛化能力。这使得它能够适应各种复杂的数据集,并在很多情况下达到较高的分类精度。
噪声敏感性:神经网络分类器确实可能对噪声数据敏感。例如,如果训练数据中存在错误标注或错误分类的样本(类别噪声问题),这可能会对模型的训练产生负面影响,导致模型的性能下降。
训练耗时:神经网络分类器的训练通常是一个耗时的过程。这主要是因为神经网络的结构复杂,需要处理大量的参数,并且通常需要通过多次迭代来优化这些参数。
综上,神经网络分类器的特点包括普适近似与精度较高、噪声敏感以及训练耗时。
27.标称类型数据可以利用的数学计算为(A )。
A.众数 B.中位数 C.均值 D.方差
解析:对于标称类型数据(也称为名义数据或分类数据),这些数据是代表类别或名称的,没有数值大小的意义。在这种数据类型上,我们不能直接应用通常需要数值大小意义的数学计算,如加、减、乘、除等。
A. 众数:众数是数据集中出现次数最多的值。对于标称类型数据,众数可以告诉我们哪个类别最常见。
B. 中位数:中位数是将数据集排序后位于中间位置的数。然而,对于标称类型数据,由于它们没有数值大小,排序没有实际意义。
C. 均值:均值是所有数值的和除以数值的数量。由于标称类型数据不是数值,因此不能计算均值。
D. 方差:方差是衡量数值型数据离散程度的统计量。由于标称类型数据不是数值,因此不能计算方差。
28.假设某同学使用贝叶斯分类模型时,由于失误操作,致使训练数据中两个维度重复表示。下列描述中正确的是(B )。
A.被重复的维度在模型中作用被加强
B.模型效果精度降低
C.如果所有特征都被重复一遍,则预测结果不发生变化
D.以上说法均错误
解析:
朴素贝叶斯分类器是贝叶斯分类器的一个简单实现,它假设特征之间是独立的。这意味着每个特征对分类结果的贡献是独立的,不会受到其他特征的影响。
重复特征的影响:
在朴素贝叶斯分类器中,特征被认为是独立的,重复的特征并不会使其作用被加强。
两个维度重复时,它们实际上提供了相同的信息,但模型却错误地认为它们是不同的独立特征。这可能导致模型在训练集上表现良好(因为重复的特征提供了更多的“信息”),但在测试集(或实际应用中)上表现较差,因为模型未能正确捕捉到真实的数据分布。
尽管朴素贝叶斯假设特征独立,但重复特征仍然会改变模型内部计算的条件概率,从而可能影响预测结果。
重复的特征破坏了朴素贝叶斯分类器中的特征独立性假设,导致模型在测试集上的性能下降,模型效果精度降低。
29.关于K-Means算法,正确的描述是( B)
A.能找到任意形状的聚类
B.初始值不同,最终结果可能不同
C.每次迭代的时间复杂度是O(n^2),其中n是样本数量
D.不能使用核函数
解析:
A. K-Means算法是一种基于距离的聚类算法,它试图将数据点划分到距离其最近的中心点(即质心)所代表的聚类中。由于它使用欧几里得距离(或其他类似的距离度量)来度量数据点之间的相似性,并且试图最小化每个数据点到其所属聚类中心的距离之和,因此它通常只能找到凸形的聚类。
B. 初始值不同,最终结果可能不同。K-Means算法对初始的聚类中心(或称为质心)的选择是敏感的。如果选择了不同的初始质心,算法可能会收敛到不同的局部最优解,从而导致不同的聚类结果。
C. 对于每个数据点,都需要进行O(k)次距离计算(其中k是聚类的数量),所以总体复杂度是O(nkd),其中d是数据的维度。d和k都是相对较小的数,所以复杂度主要由n决定,但并不是O(n^2)。
D. 核函数通常用于支持向量机(SVM)等算法中,以处理非线性可分的问题。有一种扩展的K-Means算法称为Kernel K-Means,它使用了核技巧来改进原始K-Means的性能。
30.考虑以下问题:假设我们有一个5层的神经网络,这个神经网络在使用一个4GB显卡时需要花费3h来完成训练。而在测试过程中,单个数据需要花费2s。如果我们现在把架构变换一下,当评分是0.2和0.3时,分别在第2层和第4层添加Dropout,那么新架构的测试所用时间会变为多少?( )
A.少于 2s B.大于 2s C.仍是2s D.说不准
解析:在架构中添加Dropout这一改动仅会影响训练过程,而并不影响测试过程。
Dropout是一种正则化技术,它在训练过程中随机“关闭”神经网络中的一部分神经元(将它们的输出设置为0)。这样做可以防止过拟合,因为它强制网络在训练时不过于依赖某些特定的神经元。Dropout只在训练阶段应用,以改变网络的架构,但在测试或推断阶段,Dropout是不被使用的。
原始神经网络有5层,测试单个数据需要2s。
在新架构中,当评分是0.2和0.3时,分别在第2层和第4层添加了Dropout。但请注意,Dropout仅在训练过程中应用。
因为Dropout在测试或推断时不被使用,所以添加Dropout不会改变测试单个数据所需的时间。无论Dropout的评分如何,或者它在哪些层被应用,测试过程都不会因此而受到影响。
因此,新架构的测试所用时间仍然是2s。
31.下面哪些属于可视化高维数据技术?(ACD)
A.平行坐标系 B.直方图 C.散点图矩阵 D.切尔诺夫脸
解析:
在平行坐标系中,平行的坐标轴表示不同的维度,每个数据点对应一条穿过所有坐标轴的折线,这样可以清晰地展示出数据在各个维度上的分布和关联。
散点图矩阵它将高维数据中的每个维度作为一个轴,将数据点在不同轴之间的分布关系可视化出来,有助于发现数据之间的关联和趋势。
直方图主要用于展示单个数值变量的分布频率。
而切尔诺夫脸则是将多维数据的特征映射到卡通人脸中,可以揭示多维数据中的趋势。
32.以下关于感知机说法正确的是( C)。
A.在Batch Learning模式下,权重调整出现在学习每个样本之后
B.只要参数设置得当,感知机理论上可以解决各种分类问题
C.感知机的训练过程可以看作在误差空间进行梯度下降
D.感知机的激励函数必须采用门限函数
解析:
A. 在Batch Learning模式下,权重调整通常是在处理完一个批次(batch)的所有样本之后才进行的,而不是每个样本之后。
B. 感知机是一种简单的二分类线性分类模型,它仅适用于线性可分的问题。对于非线性可分的问题,感知机可能无法找到正确的分类边界。
C. 感知机的训练过程可以看作在误差空间进行梯度下降。感知机的训练过程确实是通过计算误差(实际值与输出值之差)来调整权重,使其修改后计算的误差减小,这本质上就是梯度下降的过程。梯度下降用于在误差空间中寻找最小化误差的权重值。
D. 感知机中常用的激活函数是阶跃函数(可以看作是一种门限函数),但并不意味着感知机的激励函数必须采用门限函数。
综上,感知机的训练过程可以看作在误差空间进行梯度下降。
33.在误差逆传播算法中,隐含层节点的误差信息应当( C)
A.根据自身的期望输出和实际输出的差值计算
B.根据所有输出层神经元的误差的均值计算
C.根据自身下游神经元的误差进行加权计算
D.根据自身下游神经元的误差的均值计算
解析:
A. 在误差逆传播算法中,隐含层节点的误差并不直接根据其自身的期望输出和实际输出的差值来计算。
B. 在实际算法中,隐含层节点的误差并不是简单地取输出层所有神经元误差的均值。
C. 在误差逆传播算法中,隐含层节点的误差实际上是根据其下游神经元(即输出层神经元或下一个隐含层的神经元)的误差进行加权计算得到的。这是因为在多层神经网络中,误差是从输出层逐层向前传播的,每个节点的误差都与其下游节点的误差和连接权重有关。
D. 不是简单地取均值。
综上,根据误差逆传播算法的工作原理,隐含层节点的误差信息应当是根据其自身下游神经元的误差进行加权计算得到的。
34.朴素贝叶斯分类器的朴素之处在于( D)。
A.只能处理低维属性 B.只能处理离散型属性
C.分类效果一般 D.属性之间的条件独立性假设
解析:朴素贝叶斯分类器的“朴素”主要来自于它所做的一个核心假设:即给定输出变量的情况下,输入变量之间是相互独立的。这个假设使得朴素贝叶斯分类器在进行分类时能够简化计算,因为它不需要考虑输入变量之间的相关性。
A.朴素贝叶斯分类器可以处理任意维度的属性,只要满足其条件独立性假设。
B.虽然朴素贝叶斯分类器在离散型属性上应用广泛,但它也可以处理连续型属性,只是需要对连续属性进行适当的处理,比如使用高斯朴素贝叶斯来处理连续数据。
C. 朴素贝叶斯分类器在某些场景下分类效果可以表现得非常好。它的分类效果取决于数据是否符合其条件独立性假设。
D. 属性之间的条件独立性假设:这是朴素贝叶斯分类器“朴素”之处的核心。它假设给定输出变量的情况下,输入变量之间是条件独立的。这个假设大大简化了分类计算。
35.训练神经网络时,以下哪种激活函数最容易造成梯度消失(B )
A.Tanh B.sigmoid C.ReLU D.leakyReLU
解析:
B. Sigmoid:Sigmoid函数将输出压缩在[0, 1]的范围内。当神经元的激活在接近0或1时,函数会饱和,导致梯度在这些区域几乎为0。其导数最大值为0.25,因此在深层网络中,链式求导会导致梯度迅速减小,很容易造成梯度消失。
36.关于数据预处理,以下说法错误的是(C)。
A.可以通过聚类分析方法找出离群点
B.数据质量的三个基本属性(指标)是正确性、精确性和完整性
C.聚类和回归算法可在数据预处理中做数据规约操作
D.数据集成包括内容集成和结构集成
解析:
A. 聚类分析可以通过计算样本之间的相似性或距离,将相似的样本组合在一起,从而发现那些与其他样本显著不同的离群点。
C. 聚类和回归算法可在数据预处理中做数据规约操作。聚类算法可以帮助我们识别数据中的模式和结构,从而进行数据的规约。回归算法虽然主要用于预测,但在某些情况下也可以用于数据规约,例如通过减少预测变量的数量来简化模型。
数据规约是降维和降数据。数据质量的三个标准:?????。
37.如果对相同的数据进行逻辑回归,将花费更少的时间,并给出比较相似的精度(也可能不一样),怎么办?(假设在庞大的数据集上使用Logistic回归模型。可能遇到一个问题,Logistic回归需要很长时间才能训练。)(D )
A.降低学习率,减少迭代次数 B.降低学习率,增加迭代次数
C.提高学习率,增加迭代次数 D.增加学习率,减少迭代次数
解析:提高学习率可以加速每次迭代的速度,而减少迭代次数意味着总的训练时间减少。在某些情况下,如果数据集足够大且特征具有代表性,即使迭代次数较少,模型也可能因为学习率提高而迅速收敛到一个相对较好的解,给出与更多迭代次数相近的精度。
考虑到在庞大数据集上训练模型时,减少训练时间是一个重要目标,增加学习率以加速每次迭代,同时减少迭代次数以减少总训练时间。当然,这需要根据实际数据集和模型性能进行调整和验证。
38.神经网络模型是受人脑的结构启发发明的。神经网络模型由很多神经元组成,每个神经元都接受输入,进行计算并输出结果,那么以下选项描述正确的是(D )。
A.每个神经元只有单一的输入和单一的输出
B.每个神经元有多个输入而只有一个输出
C.每个神经元只有一个输入而有多个输出
D.每个神经元有多个输人和多个输出
39.主成分分析(PCA)是一种重要的降维技术,以下对于PCA的描述正确的是(BC)
A.主成分分析是一种无监督方法
B.主成分数量一定小于等于特征的数量
C.各个主成分之间相互正交
D.原始数据在第一主成分上的投影方差最小
解析:
A. ??????/
B. PCA的目标是找到数据中的主要变化方向,并将数据投影到这些方向上。这些方向(即主成分)的数量最多不会超过原始数据的特征数量。实际上,我们通常选择的主成分数量远小于特征数量,以达到降维的效果。
C. PCA的一个重要性质是它所产生的主成分(即特征向量)是相互正交的。这意味着它们之间没有线性相关性,这有助于减少信息的冗余。
D. PCA的第一个主成分(也称为第一主成分或主方向)是数据投影后方差最大的方向。PCA试图找到能最大化投影方差的方向,以捕获数据中的最大变化。
40.下列哪个不是数据对象的别名( C)。
A.样品 B.实例 C.维度 D.元组
解析:"维度"通常指的是描述数据的一个方面或属性。它不是数据对象本身,而是用于描述数据对象的属性或特征的集合。
41.数字图像处理中常使用主成分分析(PCA)来对数据进行降维,下列关于PCA算法
说法错误的是( C)。
A.PCA算法是用较少数量的特征对样本进行描述以达到降低特征空间维数的方法
B.PCA本质是KL变换
C.PCA是最小绝对值误差意义下的最优正交变换
D.PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,从而消除模式特征之间的相关性、突出差异性
解析:
A. PCA算法的核心思想就是使用更少的特征(主成分)来表示原始数据,从而达到降维的目的。
B. PCA(主成分分析)在数学上等同于K-L变换(Karhunen-Loeve Transform),它们都是基于数据的统计特性进行最优正交变换的方法。
C. PCA不是最小绝对值误差意义下的最优正交变换,而是在最小均方误差意义下的最优正交变换。这意味着PCA在投影数据到低维空间时,会尽量保持数据的原始结构,使得投影后的数据与原始数据之间的均方误差最小。
D. PCA算法通过对协方差矩阵做特征分解获得最优投影子空间,从而消除模式特征之间的相关性、突出差异性。PCA算法的主要步骤之一就是计算数据的协方差矩阵,并对其进行特征分解。通过选择协方差矩阵中特征值较大的特征向量(即主成分),可以构建出最优投影子空间,将数据投影到这个子空间上后,就可以消除模式特征之间的相关性,并突出差异性。
42.逻辑回归为什么是一个分类算法而不是回归算法?( A)
A.是由于激活函数sigmod 把回归问题转化成了二分类问题
B.是由于激活函数maxsoft把回归问题转化成了二分类问题
C.是由于激活函数Tanh把回归问题转化成了二分类问题
D.是由于激活函数Relu把回归问题转化成了二分类问题
解析:逻辑回归被归类为一个分类算法而不是回归算法,主要原因是其使用的激活函数sigmoid(也称为sigmod)将线性回归模型的输出映射到0到1之间,从而将其转化为一个概率值,表示样本属于某个类别的概率。这个概率值可以被用于进行二分类决策,例如当概率大于某个阈值(如0.5)时,将样本归为某一类,否则归为另一类。
43.以下关于逻辑回归说法错误的是(C )。
A.特征归一化有助于模型效果
B.逻辑回归是一种广义线性模型
C.逻辑回归相比最小二乘法分类器对异常值更敏感
D.逻辑回归可以看成只有输入层和输出层且输出层为单一神经元的神经网络
解析:
A. 特征归一化有助于模型效果。在逻辑回归中,特征归一化(或标准化)是非常重要的预处理步骤。因为逻辑回归使用梯度下降法或其他优化算法来寻找最优解,当特征具有不同的尺度时,梯度下降可能会在不同的特征上走不同的步长,导致需要更多的迭代次数来收敛。通过归一化,所有特征都被转换到相同的尺度上,这有助于梯度下降更有效地找到最优解。
B. 逻辑回归是一种广义线性模型,因为它使用了线性模型的预测值(通常是线性回归的预测值),但将其通过一个非线性函数(sigmoid函数)转换为概率值,从而实现了分类。
C.逻辑回归使用的是概率模型,并通过最大化似然函数来训练模型,它对于异常值的敏感度通常较低。而最小二乘法分类器直接优化预测值与真实值之间的平方误差,因此更容易受到异常值的影响。
D. 逻辑回归可以看作是一个非常简单的神经网络,其中只有一个输入层和一个输出层,且输出层只有一个神经元(使用sigmoid激活函数)。这个神经元接收输入层的加权和,并通过sigmoid函数将其转换为概率值。