24秋:模式识别:答题第一波除解析

判断题:

  1. T 模式识别中的人脸识别问题是根据已知数据类别预测未知数据类别的问题。
  2. F 人脸图像在计算机中是以矩阵的方式存储的。
  3. F 训练集和测试集有交集。
  4. T 算法(模型)是以样本所包含的信息为基础,对总体的某些特征进行判断、预测和估计的计算方法。
  5. T 识别率是某个模型对测试样本识别正确的概率,通常的计算方法为识别正确的测试样本数量除以测试样本总数
  6. T 对于人脸识别问题而言,输入空间是所有样本的人脸图像数据构成的集合。
  7. F 对于人脸识别问题而言,特征空间是所有样本的类别构成的集合。
  8. F 对于人脸识别问题而言,输出空间是所有样本的图像经过特征变换后得到的特征向量构成的集合。

填空:

  1. 已知样本集合为:([3,4],1),([2,5],2),([8,10],3),([7,8],4),([6,9],5),请计算样本数据部分的均值______________________。
  2. 当样本数较小时,为什么最小化经验风险会带来过拟合问题?该如何解决?

答案:___________

  1. 已知某模型对测试样本的输出结果分别为:

(x’1,2)->1

(x’2,1)->2

(x’3,1)->1

(x’4,2)->2

(x’5,1)->2

(x’6,1)->1

请计算错误率______

判断题:

  1. T  ROC曲线可用于判断模型的性能,ROC曲线下的面积越小,即AUC指标越小,模型的性能越好。

填空:

  1. 请说出期望风险最小化、经验风险最小化、结构风险最小化的区别。

答案解析:

模型测试时,留出法是将样本的数据集随机划分为两部分,一部分组成训练样本,一部分组成测试样本,经过多次测试,取测试结果的平均值作为最终的测试结果。

对  错

  1. 模型测试时,K折交叉验证的方法是什么?

答案:

判断题:

  1. F 主成分分析是非线性变换。
  2. T 主成分分析的主要目的是降低数据维数,留下主要特征。
  3. T 主成分分析降维后,使得降维后信息量保留最多的原因是,投影方向上数据的方差最大。
  4. T 在主成分分析中,使得方差最大的投影方向是数据协方差矩阵中,最大的K个特征值对应的K个特征向量构成的映射方向。

填空题:

  1. 在进行主成分分析前,需要进行数据的预处理,将数据标准化为均值为0,方差为1的向量,标准化的目的是?

答案:标准化的目的是使数据不同的特征能够在同一标准下进行度量。

  1. 主成分分析的主要步骤是什么?

答案:

判断题:

  1. T 线性判别分析是在特征空间中,找到一个最佳的投影方向,使得不同类别的样本投影到该方向上后,更易于分类。

填空题:

  1. 请说出确定线性判别分析最佳投影方向的原则。

答案:

  1. 如果样本有两类,在线性判别分析中,类间距离是用什么衡量的?

答案:

  1. 如果样本有两类,在线性判别分析中,类内距离是用什么衡量的?

答案:

选择题:

  1. B 类内离散度用来衡量

A.类间距离的大小

B.类内离散程度,类内样本到其均值的平方误差总和

C.不同类均值的距离

  1. B A  两类问题中,类内离散矩阵的计算方法是

A.两类散列矩阵的和

B.两类均值的差向量乘以其转置得到的矩阵

C.类内样本点间所有距离的和

  1. B 两类问题中,类间离散矩阵的计算方法是

A.两类散列矩阵的和

B.两类均值的差向量乘以其转置得到的矩阵

C.不同类样本点间所有距离的和

判断题:

  1. F 线性判别分析得到的投影方向,使得(类间距离/类内距离)的值最小
  2. T 线性判别分析的到的投影矩阵是类内离散矩阵的逆乘以类间离散矩阵,求其前K个特征值对应的特征向量构成的投影矩阵。
  3. T 分析一个变量与其他一个(或几个)变量之间的相关关系的统计方法就称为回归分析
  4. F 回归过程是给出一个样本集, 用函数拟合这个样本集,使拟合函数与样本集完全一致

32. T 线性回归是通过拟合自变量与因变量之间最佳线性关系,来预测目标变量的方法。

  1. T 一元线性回归是描述一个变量与多个变量之间线性相关关系的最简单的回归模型。
  2. T 一元线性回归模型表示为y=ax+b。
  3. T 多元线性回归是研究一个变量与多个变量之间线性关系的回归模型。
  4. F 评价回归模型好坏一般用R2,R2越接近0拟合程度越好。

答案解析:

  1. T 对于两类数据而言,支持向量是在两类数据中距离分界线最近的边缘点。

填空题:

  1. 请描述支持向量机中最优数据分界线的选择原则。

答案解析:最优分界线,要尽可能地远离两类数据点,即数据集的边缘点到分界线的距离d最大。

  1. 请写出以下代码的含义:

from sklearn.svm import SVC

svc = SVC(kernel='linear')

clf = svc.fit(trainx,trainy)

testy = clf.predict(testx)

答案解析:

判断题:

  1. F 在有监督的识别/分类中,样本的类别是预先设定的。
  2. F 在无监督的识别/分类中,样本的类别是预先设定的。
  3. F 聚类分析是一种有监督的分类方法。
  4. T 聚类的目标是得到较高的簇内相似度和较低的簇间相似度,使得簇间的距离尽可能大,簇内样本与簇中心的距离尽可能小。
  5. T 聚类中心是一个类别中所有样本点的均值(质心)
  6. F 在聚类分析中,样本点间的距离衡量方法有曼哈顿距离、切比雪夫距离和明可夫斯基距离等。
  7. F k-均值算法对离群点和噪声点不敏感,少量的离群点和噪声点对聚类结果影响不大。
  8. F k-均值算法中初始聚类中心的选取对算法结果影响不大。

填空题:

  1. K均值聚类中,K值选取的方法有________和_________。

答案解析:

  1. 请描述K均值聚类方法的步骤。

  1. 请复习每次直播课程上课讲解的范例代码。

选择题:

  1. B 聚类算法计算停止的条件是(  )

A.错误率小于某个阈值  B.迭代结果与上一次迭代结果相同

C.精度小于某个阈值  D.迭代结果与上一次迭代结果的差值小于某个阈值

  1. C 在线性判别分析中,将样本投影到合适的投影轴上,使得(  )

A、同类样本的投影点尽可能接近,异类样本的投影点尽可能接近

B、同类样本的投影点尽可能远离,异类样本的投影点尽可能接近

C、同类样本的投影点尽可能接近,异类样本的投影点尽可能远离

D、同类样本的投影点尽可能远离,异类样本的投影点尽可能远离

  1. B 在聚类分析里,以下代码的作用是(  )

iris = datasets.load_iris()

A.创建txt文件  B.读入鸢尾花数据  C.计算鸢尾花数据的质心

D.计算鸢尾花数据的特征值

  1. D   C 在使用主成分分析对经济数据进行分析的代码中,数据存储在data中,以下代码的作用是(  )

temp = np.std(data, axis=0)

data -= np.mean(data, axis=0)

data /= temp

A.计算数据的特征值  B.计算数据的特征向量

C.对数据进行归一化,使得数据的均值为零,方差为1  D.计算数据的协方差矩阵

  1. D 在线性判别分析中,类内散度矩阵用来衡量(  )

A、某些样本的离散程度  B、不同类样本间的离散程度

C、所有样本的离散程度  D、同类样本的类内离散程度

  1. B k均值聚类算法属于(  )

A.有监督学习  B.无监督学习  C.集成学习  D.强化学习

  1. B 以下描述正确的是(  )

A.精度和误差相等      B.精度等于1减去误差

C.精度等于1除以误差  D.精度等于100减去误差

  1. D 以下描述正确的是( )

A.样例和数据一样  B.样例和数据的区别在于类别标签不一样

C.样例和数据的区别在于数据量不一样

D.样例和数据的区别在于是否有类别标签

  1. C 在使用线性判别分析对鸢尾花数据进行分类的程序里,读入数据存储在X中,以下代码的作用是( )

X_cent = X - X.mean(axis=0)

X_std = X_cent / X.std(axis=0)

A.计算数据的类内散度矩阵   B.计算数据的类间散度矩阵

C.对数据进行归一化,使得数据的均值为零,方差为1

D.计算使目标函数J(W)取最大值的W的值

  1. B 在线性判别分析中,类间散度矩阵用来衡量( )

A、某些样本的离散程度  B、不同类样本间的离散程度

C、所有样本的离散程度  D、同类样本的类内离散程度

判断题:

  1. T 学习器的性能度量主要指对学习器泛化性能进行评估。()
  2. T 在信息检索中,查全率是指用户感兴趣的信息有多少被检索出来了。()
  3. T ROC曲线下的面积越小(即AUC指标越小),模型性能越好。()
  4. F 训练集和测试集有交集。()
  5. F 我们期望得到经验误差最小的模型。()
  6. F 当模型处于过拟合状态,其对新样本的分类效果最好。)
  7. T F1度量是综合考虑查全率与查准率的性能度量方法。()
  8. T 学习过程就是为了找出或者逼近真相。从假设空间中进行搜索,找到最匹配训练集的假设。()
  9. T 线性判别分析是在特征空间中,找到一个最佳的投影方向,使得不同类别的样本投影到该方向上后,更易于分类。()
  10. T 支持向量机通过引入核函数,将输入空间映射到高维空间,从而提高分类效果。()
  11. F 评价回归模型的指标R2越接近0,则模型的拟合程度越好。()
  12. T 在信息检索中,查准率是指检索出来的信息中有多少比例是用户感兴趣的。()
  13. F 假设等同于真相。()
  14. T 假设空间包含了所有可能的假设,用训练集学习的过程就是在假设空间中搜索到待解决问题最优的假设。()
  15. F k-均值算法对离群点和噪声点不敏感,少量的离群点和噪声点对聚类结果影响不大。()

填空题:

  1. 在支持向量机中,划分样本集最优的超平面,应是具有         的超平面。
  2. 在主成分分析中,降维后部分特征向量被舍弃了,舍弃后可以使           ,同时,能够起到            的效果。
  3. 在聚类中,用于计算两个样本之间的距离,通常采用的距离度量方式是欧氏距离
  4. 在线性回归算法中,最优回归函数中的参数使得回归函数的输出f(x)与测试样本真实输出值之间的                           
  5. 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

SVM模型对测试数据的预测结果存储在变量            中。

  1. 在主成分分析中,为使样本点经过投影后尽可能分开,则应该使投影后的样本点       

                  

  1. 聚类是将样本集划分为若干互不相交的子集,即样本簇,为使聚类结果比较好,应使聚类后               高且             低。
  2. 在支持向量机中,最优划分超平面所产生的分类结果是最              的,对未见示例的               最强。
  3. 给定数据集,模型采用函数预测测试样本的y值,则该模型属于           模型,可采用                   算法得到该函数。
  4. 已知训练数据集合(trainx,trainy),测试数据集(testx,testy),SVM算法代码如下

(1)from sklearn.svm import SVC

(2)svc = SVC(kernel='linear')

(3)clf = svc.fit(trainx,trainy)

(4)testny = clf.predict(testx)

代码(3)完成的功能为                       。

  1. 假设输入数据存储在x_data中,类别标签存储在y_data中,在线性回归分析代码中,代码如下:

(1)from sklearn.linear_model import LinearRegression

(2)lr = LinearRegression()

(3)lr.fit(x_data, y_data)

(4)y_pred = lr.predict(x_data)

请回答代码(3)(4)的含义。

答案

  1.                  
  2.                  

  1. 给定两类数据集,其中m=1000,,每类有500个样本,请设计10折交叉验证法,用于评估模型的测试误差。

         ,         ,         ,         

  1. 已知某模型对两类问题(0为正例,1为反例)的测试样本输出结果如下表所示:

测试样本

测试样本所属类别

模型输出类别

0

1

0

0

1

0

1

1

1

1

0

1

请计算该模型查准率、查全率及F1,结果保留两位小数。

                          

  1. 已知数据集的定义为,表示包含m个样本的数据集,其中每个样本有d个属性,则每个样本是d维空间中的一个向量,其中是样本在第j个属性上的取值,d称为样本的维数。

有500个人脸图像样本(像素点128*68=8704)构成的人脸图像数据集,所有像素点的值构成图像样本的属性,请根据数据集的定义及右图给出该人脸图像数据集中以下变量的值。

(1)数据集的大小m

(2)样本的维数d

(3)(下标从0开始)

  1. m=500
  2. D=8704

(3)144

  1. 假设数据的协方差矩阵存在data中,采用主成分分析算法对数据进行降维,以下代码的含义是什么?

(1)eigValue, eigVec = np.linalg.eig(data)

(2)eigValInd = np.argsort(-eigValue)

(3)selectVec = eigVec[:, eigValInd[:3]]

(1)计算协方差矩阵的特征值和特征向量

(2)对特征值进行排序

(3)依据特征值的排序结果,取三个最大的特征值对应的特征向量存入selectVec中。

  1. 给定两类数据集,其中m=1000,,每类有500个样本,请设计留出法,用于评估模型的测试误差。

1)划分训练集与测试集

2)训练集为800个样本,其中随机抽取标签为-1的样本400个,标签为+1的样本400个,测试集为剩余样本。

3)选定模型,采用训练集进行训练,测试集进行测试,记录测试误差。

4)重复1-3步10次,取平均测试误差为最终测试误差。

  1. 已知某模型对两类问题的测试样本输出结果如下表所示:

请计算该模型的错误率。

测试样本

测试样本所属类别

模型输出类别

2

1

1

2

1

1

2

2

1

2

1

1

答案:错误率=3/6= 50%

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/489801.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【蓝桥杯每日一题】推导部分和——带权并查集

推导部分和 2024-12-11 蓝桥杯每日一题 推导部分和 带权并查集 题目大意 对于一个长度为 ( N ) 的整数数列 ( A 1 , A 2 , ⋯ , A N A_1, A_2, \cdots, A_N A1​,A2​,⋯,AN​ ),小蓝想知道下标 ( l ) 到 ( r ) 的部分和 ∑ i l r A i A l A l 1 ⋯ A r \su…

<项目代码>YOLOv8 车牌识别<目标检测>

项目代码下载链接 <项目代码>YOLOv8 车牌识别<目标检测>https://download.csdn.net/download/qq_53332949/90121387YOLOv8是一种单阶段(one-stage)检测算法,它将目标检测问题转化为一个回归问题…

STM32 CubeMx HAL库 独立看门狗IWDG配置使用

看门狗这里我就不多介绍了,能搜到这篇文章说明你了解 总之就是一个单片机重启程序,设定好超时时间,在超时时间内没有喂狗,单片机就会复位 主要应用在单片机异常重启方面,比如程序跑飞(注意程序跑飞时你就…

实现某海外大型车企(T)Cabin Wi-Fi 需求的概述

最近参与某海外大型车企(T)的 Wi-Fi 功能需求开发,T 提出了一个 Cabin Wi-Fi 的概念,首先我们先对 Cabin Wi-Fi 进行一个较全面的了解。 1. Cabin Wi-Fi 概念概述 Cabin Wi-Fi 通常指用于飞机客舱、火车车厢、豪华巴士或船舶上的无…

OpenAI直播发布第4天:ChatGPT Canvas全面升级,免费开放!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工…

【Linux课程学习】:第二十一弹---深入理解信号(中断,信号,kill,abort,raise,larm函数)

🎁个人主页:我们的五年 🔍系列专栏:Linux课程学习 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 ​ Linux学习笔记: https://blog.csdn.…

2021 年 6 月青少年软编等考 C 语言四级真题解析

目录 T1. 数字三角形问题思路分析T2. 大盗思路分析T3. 最大子矩阵思路分析T4. 小球放盒子思路分析T1. 数字三角形问题 上图给出了一个数字三角形。从三角形的顶部到底部有很多条不同的路径。对于每条路径,把路径上面的数加起来可以得到一个和,你的任务就是找到最大的和。 注…

购物车案例--分模块存储数据,发送请求数据渲染,底部总计数量和价格

shift鼠标右键,打开powershell,新建项目 自定义 只有一个页面,不涉及路由,勾选vuex,css,babel 无需保存预设 回车项目开始创建 项目用vscode打开 将src里的内容全部清空 将第七天的课程准备代码复制粘贴到src中 刷新页面&…

内网是如何访问到互联网的(华为源NAT)

私网地址如何能够访问到公网的? 在上一篇中,我们用任意一个内网的终端都能访问到百度的服务器,但是这是我们在互联网设备上面做了回程路由才实现的,在实际中,之前也说过运营商是不会写任何路由过来的,那对于…

C++编程: 基于cpp-httplib和nlohmann/json实现简单的HTTP Server

文章目录 0. 引言1. 完整实例代码2. 关键实现3. 运行与测试 0. 引言 本文基于 cpp-httplib 和 nlohmann/json 实现简单的 HTTPS Server 实例代码&#xff0c;这两个库均是head-only的。 1. 完整实例代码 如下实例程序修改自example/server.cc #include <httplib.h>#i…

收银pos源代码(Win版+安卓版)

1.收银pos版本 支持市面上主流系统版本&#xff0c;如支持win版&#xff08;exe安装包&#xff09;、安卓版&#xff08;apk安装包&#xff09;&#xff1b; 2.多样化收银 支持Windows收银机、安卓收银机、ai智能称重、收银称重一体机、无人自助收银、手机端收银等&#xff…

springboot项目如何运行起来

时常开发好的springboot项目是如何运行起来的&#xff1f; 经常会使用到打包插件spring-boot-maven-plugin SpringBoot提供了一个插件spring-boot-maven-plugin用于把程序打包成一个可执行的jar包。在pom文件里加入这个插件即可&#xff1a; org.springframework.boot spring-b…

ubuntu18.04配置实时内核

ubuntu系统&#xff1a;18.04 当前内核&#xff1a;5.4.0-84-generic 待安装实时内核&#xff1a; 5.6.19-rt11 1、查看当前版本 uname -r 2、下载内核与补丁 一种方式从官网自己下载 官方内核下载地址官方补丁下载地址阿里镜像内核下载地址&#xff08;速度快&#xff0…

Centos7环境下安装Flink1.20

目录 介绍1、涉及安装包2、节点3、修改hostname4、将flink安装包上传并解压5、修改配置文件6、修改masters和workers&#xff08;所有节点&#xff09;7、集群启停 介绍 Flink 是一个分布式系统&#xff0c;需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的…

EXCEL数据清洗的几个功能总结备忘

目录 0 参考教材 1 用EXCEL进行数据清洗的几个功能 2 删除重复值&#xff1a; 3 找到缺失值等 4 大小写转换 5 类型转化 6 识别空格 0 参考教材 精通EXCEL数据统计与分析&#xff0c;中国&#xff0c;李宗璋用EXCEL学统计学&#xff0c;日EXCEL统计分析与决策&#x…

深入解析Vue3响应式系统:从Proxy实现到依赖收集的核心原理

深入解析Vue3响应式系统&#xff1a;从Proxy实现到依赖收集的核心原理 响应式系统的基本原理 作为一个热门的JavaScript框架&#xff0c;Vue在3.x版本中引入了基于Proxy的响应式系统。这个系统的核心思想是利用Proxy对象拦截对数据的访问和修改&#xff0c;从而实现数据的自动更…

Visual Studio 2022 安装和管理 GitHub Copilot

文章目录 前言一、&#x1f6e0;️安装 GitHub Copilot1.1 安装 GitHub Copilot Chat1.2 使用 Visual Studio 安装程序进行安装1.3 使用“管理扩展”对话框进行安装&#xff08;推荐&#xff09; 二、&#x1f3ad;管理 Copilot 状态2.1 Copilot 处于活动状态2.2 Copilot 处于非…

git企业的使用详细命令行操作

git是Linux创始人通过内核开发而创作的分布式版本的控制系统&#xff0c;而我们作为开发者需要开发与维护&#xff0c;避免不了版本的迭代和更新&#xff0c;git就是用来保存修改删除等操作的工具&#xff0c;可以记录代码改动情况&#xff0c;它能够保存代码的每个版本&#x…

高中数学:随机变量-二项分布与超几何分布(独立重复实验)

文章目录 一、二项分布伯努利实验概率公式均值与方差公式归纳例题 二、超几何分布定义均值例题 一、二项分布 伯努利实验 概率公式 补充&#xff1a;二项式定理 均值与方差公式 归纳 例题 二、超几何分布 定义 均值 证明 例题

【Leetcode】滑动窗口算法-编程苍穹下划破数据暗夜的高效光弧

前言 &#x1f31f;&#x1f31f;本期讲解关于滑动窗口问题~~~ &#x1f308;感兴趣的小伙伴看一看小编主页&#xff1a;GGBondlctrl-CSDN博客 &#x1f525; 你的点赞就是小编不断更新的最大动力 &#x1f386;那么废话不多说直接…