24秋:模式识别:填空解答题

目录

一.空题目

二.解答题目

.空题目

9:已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______

10:当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?

11:已知某模型对测试样本的输出结果分别为:

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率______

13:请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。对  错

15:模型测试时,K折交叉验证的方法是什么?

20:在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值0方差1的向量,标准化的目的是?

21:主成分分析的主要步骤是什么?

23:请说出确定线性判别分析最佳投影方向的原则

24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?

25:如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?

38:请描述支持向量机中最优数据分界线的选择原则

39:请写出以下代码的含义:

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

48:K均值聚类中,K值选取的方法有________和_________。

49:请描述K均值聚类方法的步骤。

50:请复习每次直播课程上课讲解的范例代码。

76:在支持向量机中,划分样本集最优的超平面,应是具有         的超平面。 

77:在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使           ,同时,能够起到            的效果。

78:在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是欧氏距离

79:在线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的                           

:80:已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量            中。

81:在主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点       

82:聚类是将样本集划分为若干互不相交子集,即样本簇,为使聚类结果比较好,应使聚类               高且             低。

83:在支持向量机中,最优划分超平面所产生的分类结果是最              的,对未见示例的               最强。

84:给定数据集,模型采用函数预测测试样本的y值,则该模型属于           模型,可采用                   算法得到该函数。

85:已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

代码(3)完成的功能为                       。

86:假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:

(1)from sklearn.linear_model import LinearRegression

(2)lr = LinearRegression()

(3)lr.fit(x_data, y_data)

(4)y_pred = lr.predict(x_data)

请回答代码(3)(4)的含义。

87:给定两类数据集

​编辑,其中m=1000,

​编辑,每类500个样本,请设计10折交叉验证法,用于评估模型测试误差

         ,         ,         ,         

88:已知某模型对两类问题(0正例1反例)的测试样本输出结果如下表所示:

测试样本

测试样本所属类别

模型输出类别

​编辑

0

1

​编辑

0

0

​编辑

1

0

​编辑

1

1

​编辑

1

1

​编辑

0

1

请计算该模型查准率查全率F1,结果保留两位小数。

89:已知数据集的定义为

​编辑,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本

​编辑是d维空间中的一个向量,其中

​编辑是样本

​编辑在第j个属性上的取值,d称为样本

​编辑的维数。

90:有500个人脸图像样本’(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

(1)数据集的大小m

(2)样本的维数d

​编辑(3)

​编辑(下标从0开始)

  1. m=500
  2. D=8704

(3)144

90: 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?

(1)eigValue, eigVec = np.linalg.eig(data)

(2)eigValInd = np.argsort(-eigValue)

(3)selectVec = eigVec[:, eigValInd[:3]]

  1. 给定两类数据集

    ​编辑,其中m=1000,

    ​编辑,每类有500个样本,请设计留出法,用于评估模型的测试误差。
  1. 已知某模型对两类问题的测试样本输出结果如下表所示:

请计算该模型的错误率。

测试样本

测试样本所属类别

模型输出类别

​编辑

2

1

​编辑

1

2

​编辑

1

1

​编辑

2

2

​编辑

1

2

​编辑

1

1

.解答题目

9:已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______________________。[5.2,7.2]。

其中,每个样本点的第一个数字表示第一个特征的值,第二个数字表示第二个特征的值,而后面的数字(1, 2, 3, 4, 5)是样本的标签或类别,在计算均值时不考虑它们。

首先,我们提取所有样本点的第一个特征的值:3,2,8,7,6
然后计算这些值的均值:
第一个特征的均值=(53+2+8+7+6)/5​=526​=5.2

接着,我们提取所有样本点的第二个特征的值:4,5,10,8,9
然后计算这些值的均值:
第二个特征的均值=(54+5+10+8+9)/5​=536​=7.2

因此,样本数据部分的均值为 [5.2,7.2]

10:当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?

答案:___________

样本数较小时,经验风险不等于期望风险,最小化经验风险得到的模型其期望风险不一定最最小,同时,最小化经验风险时,在每个训练样本上的训练误差可能为,得到的模型过于复杂,造成过拟合问题,然而当数据不在训练集合中时,预测误差较大,造成过拟合问题。

解决过拟合问题可以采用正则化的方法,其基本思想是希望模型尽量简单

11:已知某模型对测试样本的输出结果分别为:

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率_______50%__

(x1′​,2)→1:真实类别是2,模型预测为1。

(x2′​,1)→2:真实类别是1,模型预测为2。

(x3′​,1)→1:真实类别是1,模型预测为1。

(x4′​,2)→2:真实类别是2,模型预测为2。

(x5′​,1)→2:真实类别是1,模型预测为2。

(x6′​,1)→1:真实类别是1,模型预测为1。

错误预测的样本数:3(即第1、2、5个测试样本的预测是错误的)。

3/6=0.5

13:请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

答案解析:期望风险最小化是最小化模型总体上的预测风险,经验风险最小化是最小化模型在训练样本上的预测风险值,结构风险最小化是最小化经验风险模型结构复杂度

14:模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。

对  错

15:模型测试时,K折交叉验证的方法是什么?

答案:将数据集分为K个互不相交的大小相同数据集,用k-1个子集训练,用剩下的1个子集测试,重复K次,选出平均测试误差最小的模型

20:在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值0方差1的向量,标准化的目的是?

答案:标准化的目的是使数据不同特征能够在同一标准下进行度量

21:主成分分析的主要步骤是什么?

答案:设有m条n维数据,PCA的一般步骤如下:

1)进行数据预处理(标准化为均值为0,方差为1)

2)将原始数据按列组成n行m列矩阵X

3)计算矩阵X中每个特征属性(n维)的平均向量M(平均值)

4)将X的每行(代表一个属性字段)进行零均值化,即减去M

5)按照公式C=1/m XX^T求出协方差矩阵

6)求出协方差矩阵的特征值及对应的特征向量

7)将特征向量按对应特征值大到小按行排列矩阵,取前k(k < n)行组成基向量P

8)通过Y=PX计算降维k维后样本特征

23:请说出确定线性判别分析最佳投影方向的原则

答案:最佳投影方向是最易于分类的方向,即投影后,类内距离最小,类间距离最大

24:如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?

答案:类间距离是两类样本均值的距离

25:如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?

答案:每一类样本到其均值距离的和再求和

  1. 请描述支持向量机中最优数据分界线的选择原则

答案:最优分界线,要尽可能地远离两类数据点,即数据集的边缘点分界线距离d最大

  1. 请写出以下代码的含义:

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

答案解析:

  1. K均值聚类中,K值选取的方法有________和_________。

答案:方法和轮廓系数

  1. 请描述K均值聚类方法的步骤。

答案:

1)首先选取k个类簇(k需要用户进行指定)的质心,通常是随机选取。

2)对剩余的每个样本点,计算它们到各个质心的欧式距离,并将其归入到相互间距离最小的质心所在的簇。计算各个新簇的质心。

3)在所有样本点都划分完毕后,根据划分情况重新计算各个簇的质心所在位置,然后迭代计算各个样本点到各簇质心的距离,对所有样本点重新进行划分。

4)重复第2)步和第3)步, 直到迭代计算后,所有样本点的划分情况保持不变,此时说明k-均值算法已经得到了最优解,将运行结果返回。

  1. 请复习每次直播课程上课讲解的范例代码。
  1. 在支持向量机中,划分样本集最优的超平面,应是具有         的超平面。  最大间隔
  2. 在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使           ,同时,能够起到            的效果。使样本的采样密度增大  去噪  
  3. 在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是欧氏距离
  4. 线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的                           均方误差    小
  5. 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量            中。

  1. 主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点       

                  。 投影后样本点的方差最大化      

  1. 聚类是将样本集划分为若干互不相交子集,即样本簇,为使聚类结果比较好,应使聚类               高且             低。簇内相似度  簇间相似度
  2. 在支持向量机中,最优划分超平面所产生的分类结果是最              的,对未见示例的               最强。  鲁棒   泛化能力    
  3. 给定数据集,模型采用函数预测测试样本的y值,则该模型属于           模型,可采用                   算法得到该函数。 线性 , 线性回归
  4. 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

代码(3)完成的功能为                       。采用训练数据对SVM模型进行训练

  1. 假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:

(1)from sklearn.linear_model import LinearRegression

(2)lr = LinearRegression()

(3)lr.fit(x_data, y_data)

(4)y_pred = lr.predict(x_data)

请回答代码(3)(4)的含义。

答案

  1. 用训练数据x_data和 y_data训练线性回归模型lr.
  2. 对x_data数据采用训练好的模型进行预测,预测结果存储在y_pred中。
  1. 给定两类数据集

    ​编辑,其中m=1000,

    ​编辑,每类500个样本,请设计10折交叉验证法,用于评估模型测试误差

         ,         ,         ,         

1)将数据集划分10个互斥子集,每个子集包含随机抽取的标签为1的样本50个,标签为-1的样本50个。

2)随机选取一个子集作为测试集,剩余集合作为训练集。

3)选定模型,采用训练集进行训练测试集进行测试,记录测试误差。

4)重复2-3步10次,每次选取的测试子集不同,取平均测试误差为最终测试误差。

89:已知某模型对两类问题(0正例1反例)的测试样本输出结果如下表所示:

测试样本

测试样本所属类别

模型输出类别

​编辑

0

1

​编辑

0

0

​编辑

1

0

​编辑

1

1

​编辑

1

1

​编辑

0

1

请计算该模型查准率查全率F1,结果保留两位小数。

                          

(查准率

,查全率

,其中,TP为真正例数,即实际为正例,识别结果也为正例的样本个数;FP为假正例数,即实际为反例,识别结果为正例的样本个数;FN为假反例数,即实际为正例,识别结果为反例的样本个数;TN为真反例数,即实际为反例,识别结果也为反例的样本个数)

查准率P=1/2=50%

查全率R=1/3=33.33%

F1=2/5=40%

  1. 已知数据集的定义为

    ​编辑,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本

    ​编辑是d维空间中的一个向量,其中

    ​编辑是样本

    ​编辑在第j个属性上的取值,d称为样本

    ​编辑的维数。

  1. 有500个人脸图像样本’(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

(1)数据集的大小m

(2)样本的维数d

​编辑(3)

​编辑(下标从0开始)

  1. m=500
  2. D=8704

(3)144

90: 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?

(1)eigValue, eigVec = np.linalg.eig(data)

(2)eigValInd = np.argsort(-eigValue)

(3)selectVec = eigVec[:, eigValInd[:3]]

(1)计算协方差矩阵特征值特征向量

(2)对特征值进行排序

(3)依据特征值排序结果,取三个最大的特征值对应的特征向量存入selectVec中。

  1. 给定两类数据集

    ​编辑,其中m=1000,

    ​编辑,每类有500个样本,请设计留出法,用于评估模型的测试误差。

1)划分训练集测试集

2)训练集为800个样本,其中随机抽取标签为-1的样本400个,标签为+1的样本400个,测试集为剩余样本。

3)选定模型,采用训练集进行训练,测试集进行测试,记录测试误差

4)重复1-3步10次,取平均测试误差为最终测试误差

  1. 已知某模型对两类问题的测试样本输出结果如下表所示:

请计算该模型的错误率。

测试样本

测试样本所属类别

模型输出类别

​编辑

2

1

​编辑

1

2

​编辑

1

1

​编辑

2

2

​编辑

1

2

​编辑

1

1

答案:错误率=3/6= 50%

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/490485.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Ubuntu上源码编译安装snort,使用snort进行数据检测和防御(简单示例)

前言 Snort是一个开源的网络入侵检测和防范系统&#xff08;IDS/IPS&#xff09;&#xff0c;Snort是一个基于libpcap的轻量级网络入侵检测系统&#xff0c;它运行在一个“传感器&#xff08;sensor&#xff09;”主机上&#xff0c;监听网络数据。通过将网络数据与规则集进行…

(补)算法刷题Day19:BM55 没有重复项数字的全排列

题目链接 给出一组数字&#xff0c;返回该组数字的所有排列 例如&#xff1a; [1,2,3]的所有排列如下 [1,2,3],[1,3,2],[2,1,3],[2,3,1],[3,1,2], [3,2,1]. &#xff08;以数字在数组中的位置靠前为优先级&#xff0c;按字典序排列输出。&#xff09; 思路&#xff1a; 使用回…

Repo管理

文章目录 前言Repo介绍清单仓库清单仓库的组成 初始化Repo同步远程仓库Repo实际应用 前言 我们知道&#xff0c;Git是用来管理某一个仓库&#xff0c;那当一个项目用到了多个仓库时&#xff0c;怎么来同步管理这些仓库呢&#xff1f;这个时候就可以引入Repo管理。 Repo介绍 …

QT 国际化(翻译)

QT国际化&#xff08;Internationalization&#xff0c;简称I18N&#xff09;是指将一个软件应用程序的界面、文本、日期、数字等元素转化为不同的语言和文化习惯的过程。这使得软件能够在不同的国家和地区使用&#xff0c;并且可以根据用户的语言和地区提供本地化的使用体验。…

【卷积神经网络】AlexNet实践

构建模型 模版搭建 # 定义一个AlexNet模型类def __init__(self):# 调用父类的构造函数&#xff08;如果继承自nn.Module的话&#xff09;super(AlexNet, self).__init__()# ReLU激活函数self.ReLU nn.ReLU()# 卷积层1&#xff1a;输入1个通道&#xff08;灰度图&#xff09;&a…

socket编程UDP-实现停等机制(接收确认、超时重传)

在下面博客中&#xff0c;我介绍了利用UDP模拟TCP连接、按数据包发送文件的过程&#xff0c;并附上完整源码。 socket编程UDP-文件传输&模拟TCP建立连接脱离连接&#xff08;进阶篇&#xff09;_udp socket发送-CSDN博客 下面博客实现的是滑动窗口机制&#xff1a; sock…

Leetcode 面试150题 399.除法求值

系列博客目录 文章目录 系列博客目录题目思路代码 题目 链接 思路 广度优先搜索 我们可以将整个问题建模成一张图&#xff1a;给定图中的一些点&#xff08;点即变量&#xff09;&#xff0c;以及某些边的权值&#xff08;权值即两个变量的比值&#xff09;&#xff0c;试…

Python机器视觉的学习

一、二值化 1.1 二值化图 二值化图&#xff1a;就是将图像中的像素改成只有两种值&#xff0c;其操作的图像必须是灰度图。 1.2 阈值法 阈值法&#xff08;Thresholding&#xff09;是一种图像分割技术&#xff0c;旨在根据像素的灰度值或颜色值将图像分成不同的区域。该方法…

Linux 支持多个spi-nor flash

1. 需求 通常在嵌入式开发过程中可能会遇到需要再同一个SPI总线上挂载多个spi nor flash才能满足存储需求。 2. 技术简介 对于spi-nor flash驱动通常不需要驱动开发人员手搓&#xff0c;一般内核会有一套固定的驱动&#xff0c;而且走的是内核的MTD子系统那一套&#xff0c;市…

超标量处理器设计笔记(11)发射内容:分配、仲裁、唤醒

发射 概述集中式和分布式数据捕捉和非数据捕捉数据捕捉非数据捕捉总结对比 压缩式和非压缩式压缩式发射队列非压缩式发射队列总结 发射过程的流水线非数据捕捉结构的流水线数据捕捉结构的流水线 分配仲裁1-of-M 的仲裁电路N of M 的仲裁电路 唤醒单周期指令的唤醒多周期指令的…

ArrayList源码分析、扩容机制面试题,数组和List的相互转换,ArrayList与LinkedList的区别

目录 1.java集合框架体系 2. 前置知识-数组 2.1 数组 2.1.1 定义&#xff1a; 2.1.2 数组如何获取其他元素的地址值&#xff1f;&#xff08;寻址公式&#xff09; 2.1.3 为什么数组索引从0开始呢&#xff1f;从1开始不行吗&#xff1f; 3. ArrayList 3.1 ArrayList和和…

地下管线三维建模,市面上有哪些软件

1. 地下管线&#xff1a;城市“生命线” 地下管线是城市的重要基础设施&#xff0c;包括供水、排水、燃气、热力、电力、通信等管线&#xff0c;它们如同城市的“生命线”&#xff0c;支撑着城市的正常运转。如果缺乏完整和准确的地下管线信息&#xff0c;施工破坏地下管线的事…

蓝桥杯刷题——day5

蓝桥杯刷题——day5 题目一题干解题思路一代码解题思路二代码 题目二题干解题思路代码 题目一 题干 给定n个整数 a1,a2,⋯ ,an&#xff0c;求它们两两相乘再相加的和&#xff0c;即&#xff1a; 示例一&#xff1a; 输入&#xff1a; 4 1 3 6 9 输出&#xff1a; 117 题目链…

L1-3流量分析

1. 初步分析 数据包下载 流量分析基础篇 使用科来网络分析系统&#xff0c;打开L1-3.pcapng数据包&#xff0c;查看数据包中ssh的协议占的比例较大。 2. 通过分析数据包L1-3&#xff0c;找出黑客的IP地址&#xff0c;并将黑客的IP地址作为FLAG(形式:[IP地址)提交; 获取的fl…

docker启动一个helloworld(公司内网服务器)

这里写目录标题 容易遇到的问题&#xff1a;1、docker连接问题 我来介绍几种启动 Docker Hello World 的方法&#xff1a; 最简单的方式&#xff1a; docker run hello-world这会自动下载并运行官方的 hello-world 镜像。 使用 Nginx 作为 Hello World&#xff1a; docker…

【网络取证篇】取证实战之PHP服务器镜像网站重构及绕密分析

【网络取证篇】取证实战之PHP服务器镜像网站重构及绕密分析 在裸聊敲诈、虚假理财诈骗案件类型中&#xff0c;犯罪分子为了能实现更低成本、更快部署应用的目的&#xff0c;其服务器架构多为常见的初始化网站架构&#xff0c;也称为站库同体服务器&#xff01;也就是说网站应用…

图像处理 - 车道线检测:智能驾驶的“眼睛”

引言 在智能驾驶技术飞速发展的今天&#xff0c;车道线检测作为一项基础而关键的技术&#xff0c;扮演着车辆“眼睛”的角色。它不仅关系到车辆的导航和定位&#xff0c;还直接影响到自动驾驶系统的安全性和可靠性。本文将带你深入了解车道线检测技术的原理、方法以及在实际应用…

【Linux学习】十五、Linux/CentOS 7 用户和组管理

Linux下组和用户的管理都必须是root用户下进行&#xff1a; 一、组的管理 1.组的创建 格式&#xff1a; groupadd 组名参数&#xff1a; -g&#xff1a;指定用户组的组ID&#xff08;GID&#xff09;&#xff0c;如果不提供则由系统自动分配。 【案例】创建一个名为 oldg…

Unity类银河战士恶魔城学习总结(P179 Enemy Archer 弓箭手)

教程源地址&#xff1a;https://www.udemy.com/course/2d-rpg-alexdev/ 本章节实现了敌人弓箭手的制作 Enemy_Archer.cs 核心功能 状态机管理敌人的行为 定义了多个状态对象&#xff08;如 idleState、moveState、attackState 等&#xff09;&#xff0c;通过状态机管理敌人的…

Pikachu靶场——XXE漏洞

XXE&#xff08;XML External Entity&#xff09;漏洞 XXE&#xff08;XML External Entity&#xff09;漏洞是一种常见的安全漏洞&#xff0c;发生在处理 XML 数据的应用程序中。当应用程序解析 XML 输入时&#xff0c;如果没有正确配置或过滤外部实体的加载&#xff0c;就可能…