机器学习-面经(part5、KNN和SVM)

机器学习-面经(part5、KNN和SVM)

news/2024/12/25 1:11:50/文章来源:https://blog.csdn.net/qq_40102160/article/details/136465412

8. KNN

8.1 简述一下KNN算法的原理?

一句话概括：KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别

工作原理：存在一个样本数据集合，也称作为训练样本集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新的数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本最相似数据(最近邻)的分类标签。一般来说，我们只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类。

3个主要因素是：k值选择，距离度量，分类决策。

8.2 如何理解KNN中的k的取值？

K值的重要性需要先看一下距离度量，要度量空间中点距离的话，有好几种度量方式，比如常见的曼哈顿距离计算，欧式距离计算等等。不过通常KNN算法中使用的是欧式距离，这里只是简单说一下，拿二维平面为例，，二维空间两个点的欧式距离计算公式如下：

将其拓展到多维空间则为下图

KNN算法最简单粗暴的就是将预测点与所有点距离进行计算，然后保存并排序，选出前面K个值看看哪些类别比较多。但其实也可以通过一些数据结构来辅助，比如最大堆。

由距离度量可知，K的取值比较重要，该如何确定K取多少值好呢？答案是通过交叉验证（将样本数据按照一定比例，拆分出训练用的数据和验证用的数据，比如6：4拆分出部分训练数据和验证数据），从选取一个较小的K值开始，不断增加K的值，然后计算验证集合的方差，最终找到一个比较合适的K值。

8.3 在kNN的样本搜索中，如何进行高效的匹配查找？

线性扫描(数据多时，效率低) 构建数据索引—

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/269162.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

TypeError: the JSON object must be str, bytes or bytearray, not dict

TypeError: the JSON object must be str, bytes or bytearray, not dict

参考文章：https://blog.csdn.net/yuan2019035055/article/details/124934362 Python基础系列（一）搞懂json数据解析与字典之间的关系代码： 报错信息: TypeError: the JSON object must be str, bytes or bytearray, not dict …

阅读更多...

局域网如何远程？

局域网如何远程？

局域网远程一直是许多用户在处理远程连接需求时面临的一个难题。随着技术的不断进步，一种名为“天联”的组网解决方案应运而生。天联组网具有操作简单、跨平台应用、无网络要求以及独创的安全加速方案等独特优势，在解决各行业客户的远程连接需求方面发挥…

阅读更多...

解决ipconfig不能使用的问题

解决ipconfig不能使用的问题

问题所示：ipconfig不是内部或外部命令，也不是可运行的程序或批处理文件。解决办法如下: 1.右击此电脑，点击属性设置： 2.点击高级系统设置 3.点击进入环境变量 4.在系统变量中进行设置，双击PATH进行配置 5.点击新建&am…

阅读更多...

【如何在Docker中，修改已经挂载的卷（Volume）】

【如何在Docker中，修改已经挂载的卷（Volume）】

曾梦想执剑走天涯，我是程序猿【AK】提示：添加投票！！！ 目录简述概要知识图谱简述概要如何在Docker中，修改已经挂载的卷（Volume） 知识图谱在Docker中，修改已经挂载…

阅读更多...

matlab 提取分割位于多边形区域边缘内部或边缘上的点

matlab 提取分割位于多边形区域边缘内部或边缘上的点

[in,on] = inpolygon(xq,yq,xv,yv) xv 和 yv 为定义的多边形区域的，如xv = [1 4 4 1 1 ];yv = [1 1 4 4 1 ];注意最后一个数字与第一个重复，保证多边形闭合； xq 和 yq 为待查询的点in：在多边形内部和边缘的点序号on：仅在多边形边缘的点序号提取分割方法： matrix=[xq yq…

阅读更多...

智能汽车加速车规级存储应用DS2431P+TR 汽车级EEPROM 存储器IC

智能汽车加速车规级存储应用DS2431P+TR 汽车级EEPROM 存储器IC

DS2431PT&R是一款1024位1-Wire EEPROM芯片，由四页存储区组成，每页256位。数据先被写入一个8字节暂存器中，经校验后复制到EEPROM存储器。该器件的特点是，四页存储区相互独立，可以单独进行写保护或进入EPROM仿真模式…

阅读更多...

折线图实现柱状阴影背景的demo

折线图实现柱状阴影背景的demo

这个是一个由官网的基础折线图实现的流程，将涉及到的知识点附上个人浅薄的见解，源码在最后，需要的可自取。折线图成果展示代码注解参数backgroundColordataZoomlegendtitlexAxisyAxisgridseries 源码成果展示官网的基础折线图&#xff…

阅读更多...

【Python】OpenCV-使用ResNet50进行图像分类

【Python】OpenCV-使用ResNet50进行图像分类

使用ResNet50进行图像分类如何使用ResNet50模型对图像进行分类。 import os import cv2 import numpy as np from tensorflow.keras.applications.resnet50 import ResNet50, preprocess_input, decode_predictions from tensorflow.keras.preprocessing import image# 设置…

阅读更多...

计算机网络物理层知识点总结

计算机网络物理层知识点总结

本篇博客是基于谢希仁编写的《计算机网络》和王道考研视频总结出来的知识点，本篇总结的主要知识点是第二章的物理层。上一章的传送门：计算机网络体系结构-CSDN博客通信基础物理层概念物理层解决如何在连接各种计算机的传输媒体上传输数据比特流&am…

阅读更多...

leetcode刷题日记-K个一组翻转（链表）

leetcode刷题日记-K个一组翻转（链表）

题目描述解题思路第一种解法，也是我们常用的一种解题方法，首先遍历一遍列表，将列表中的val的值存放到数组中，然后按照要求对数组进行排序，排序之后，我们重新定义节点，将节点按照排完序的结果…

阅读更多...

如何远程连接MySQL数据库？

如何远程连接MySQL数据库？

在现代互联网时代，远程连接MySQL数据库成为了许多开发者和管理员必备的技能。这不仅方便了数据的共享和管理，还可以使多个团队在全球范围内协同工作。本文将介绍如何通过天联组网实现远程连接MySQL数据库，并实现高效的信息远程通信。天联组网…

阅读更多...

力扣hot100：1.两数之和

力扣hot100：1.两数之和

输入中可能存在重复值。分析： 本题需要返回的是数组下标，因此如果需要使用排序然后双指针的话，需要用到哈希表，但是由于输入中可能存在重复值，因此哈希表的value值必须是vector<int>。使用双指针求目标值targ…

阅读更多...

OpenDDS 跨主机通信配置与实现(C++和Java)

OpenDDS 跨主机通信配置与实现(C++和Java)

目录 1、编写一个示例1.1、IDL接口定义1.2、MPC文件介绍1.3、生成解决方案 2、通讯测试2.1、使用repo server 通讯2.2、使用repo ipport方式2.3、对等发现face 1、编写一个示例 1.1、IDL接口定义假设我们现在有以下结构： struct MessagerOne { int subject_id; …

阅读更多...

CMU 10-414/714: Deep Learning Systems --hw0

CMU 10-414/714: Deep Learning Systems --hw0

hw0 宏观上的步骤： softmax loss: 实现softmax loss代码概念 softmax就是将结果映射到0~1之间，且所有结果相加为1（概率形式）cross-entropy loss就是计算 p ( x ) log ⁡ q ( x ) p(x)\log {q(x)} p(x)logq(x)，此值可用于衡量实际输出与期望输出的距离，进而衡量预测模…

阅读更多...

各种排序算法

各种排序算法

文章目录 1. 基于比较排序算法总结2. 非比较排序算法 1. 基于比较排序算法总结 2. 非比较排序算法

阅读更多...

路由器端口映射如何配置？

路由器端口映射如何配置？

在网络通信中，路由器是一个重要的设备，它负责将数据包从一个网络传输到另一个网络。路由器的端口映射配置是一种重要的设置，可以使外部网络中的计算机通过访问路由器上的特定端口与内部网络中的计算机进行通信。本文将介绍什么是路由器端口映…

阅读更多...

LabVIEW石油钻机提升系统数字孪生技术

LabVIEW石油钻机提升系统数字孪生技术

LabVIEW石油钻机提升系统数字孪生技术随着数字化、信息化、智能化的发展，石油钻采过程中的石油钻机数字化技术提升成为了提高钻井效率、降低生产成本的重要途径。基于中石油云平台提供的数据，采用数字孪生技术，对石油钻机提升系统进行数字化…

阅读更多...

electron+vue3全家桶+vite项目搭建【29】封装窗口工具类【3】控制窗口定向移动

electron+vue3全家桶+vite项目搭建【29】封装窗口工具类【3】控制窗口定向移动

文章目录引入实现效果思路声明通用的定位对象主进程模块渲染进程测试效果引入 demo项目地址窗口工具类系列文章： 封装窗口工具类【1】雏形封装窗口工具类【2】窗口组，维护窗口关系封装窗口工具类【3】控制窗口定向移动很多时候，我们想…

阅读更多...

C语言--- qsort函数

C语言--- qsort函数

目录一.qsort函数 1.qsort函数的功能 2.四个参数讲解 (1)base (2)num (3)size (4)compare 3.使用qsort函数对一个整形数组进行排序 4.qsort函数排序结构体数据第一种：按照年龄进行比较第二种：按照名字进行排序二.利用冒泡排序模仿qsort函…

阅读更多...

嵌入式驱动学习第二周——Linux内核打印

嵌入式驱动学习第二周——Linux内核打印

前言这篇博客来聊一聊Linux内核打印。嵌入式驱动学习专栏将详细记录博主学习驱动的详细过程，未来预计四个月将高强度更新本专栏，喜欢的可以关注本博主并订阅本专栏，一起讨论一起学习。现在关注就是老粉啦！ 目录前言1. dmesg指令…

阅读更多...

最新文章

推荐文章