[机器学习]KNN——K邻近算法实现

一.K邻近算法概念

二.代码实现 

# 0. 引入依赖
import numpy as np
import pandas as pd# 这里直接引入sklearn里的数据集,iris鸢尾花
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split  # 切分数据集为训练集和测试集
from sklearn.metrics import accuracy_score # 计算分类预测的准确率# 1. 数据加载和预处理
iris = load_iris()
# print(iris)df = pd.DataFrame(data = iris.data, columns = iris.feature_names)
df['class'] = iris.target
df['class'] = df['class'].map({0: iris.target_names[0], 1: iris.target_names[1], 2: iris.target_names[2]})
df.head(10)
# df.describe()
# print(df)x = iris.data
y = iris.target.reshape(-1,1)
# print(x.shape, y.shape)# 划分训练集和测试集
# test_size:测试比例,random_state:随机划分,stratify:按照y的分布等比例分割
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=35, stratify=y)
# print(x_train.shape, y_train.shape)
# print(x_test.shape, y_test.shape)# 2. 核心算法实现
# 距离函数定义
def l1_distance(a, b):return np.sum(np.abs(a - b), axis=1) # 曼哈顿距离def l2_distance(a, b):return np.sqrt(np.sum((a - b) ** 2, axis=1)) # 欧氏距离# 分类器实现
class kNN(object):# 定义一个初始化方法,__init__ 是类的构造方法def __init__(self, n_neighbors=1, dist_func=l1_distance):self.n_neighbors = n_neighborsself.dist_func = dist_func# 训练模型方法def fit(self, x, y):self.x_train = xself.y_train = y# 模型预测方法def predict(self, x):# 初始化预测分类数组:初始化一个0数组,x.shape[0]:行数,1:列数,dtype:定义此数据类型y_pred = np.zeros((x.shape[0], 1), dtype=self.y_train.dtype)# 遍历输入的x数据点,取出每一个数据点的序号i和数据x_test。enumerate:可同时拿出两个(序号和值)for i, x_test in enumerate(x):# x_test跟所有训练数据计算距离distances = self.dist_func(self.x_train, x_test)# 得到的距离按照由近到远排序,取出索引值nn_index = np.argsort(distances)# 选取最近的k个点,保存它们对应的分类类别,n_neighbors:表示取k个邻近的值nn_y = self.y_train[nn_index[0:self.n_neighbors]].ravel()# 统计类别中出现频率最高的那个,赋给y_pred[i]y_pred[i] = np.argmax(np.bincount(nn_y))return y_pred"""a = np.array([[3,2,4,2],[2,1,4,23],[12,3,2,3],[2,3,15,23],[1,3,2,3],[13,3,2,2],[213,16,3,63],[23,62,23,23],[23,16,23,43]])b = np.array([[1,1,1,1]])print("a-b:",a-b) # 下面的a-b:a表示数组,b表示向量np.sum(np.abs(a - b), axis=1)dist = np.sqrt( np.sum((a-b) ** 2, axis=1) )nn_index = np.argsort(dist)print("dist: ", dist)print("nn_index: ", nn_index)nn_y = y_train[nn_index[:9]].ravel()print("未转换前的y:",y_train[:8])print("nn_y:", nn_y)print("y计数:",np.bincount(nn_y))print("取出现次数最多的y:",np.argmax(np.bincount(nn_y)))
"""# 3. 测试
# 定义一个knn实例
knn = kNN(n_neighbors = 3)
# 训练模型
knn.fit(x_train, y_train)
# 传入测试数据,做预测
y_pred = knn.predict(x_test)
print("y测试值: ", y_test.ravel())
print("y预测值: ", y_pred.ravel())
# 求出预测准确率
accuracy = accuracy_score(y_test, y_pred)
print("预测准确率: ", accuracy)# 定义一个knn实例
knn = kNN()
# 训练模型
knn.fit(x_train, y_train)
# 保存结果list
result_list = []
# 针对不同的参数选取,做预测
for p in [1, 2]:knn.dist_func = l1_distance if p == 1 else l2_distance# 考虑不同的k取值,步长为2(取奇数1,3,5,7,9)for k in range(1, 10, 2):knn.n_neighbors = k# 传入测试数据,做预测y_pred = knn.predict(x_test)# 求出预测准确率accuracy = accuracy_score(y_test, y_pred)result_list.append([k, '曼哈顿距离' if p == 1 else '欧氏距离', accuracy])
df = pd.DataFrame(result_list, columns=['k', '距离函数', '预测准确率'])
print(df)

y测试值:  [2 1 2 2 0 0 2 0 1 1 2 0 1 1 1 2 2 0 1 2 1 0 0 0 1 2 0 2 0 0 2 1 0 2 1 0 2 1 2 2 1 1 1 0 0]
y预测值:  [2 1 2 2 0 0 2 0 1 1 1 0 1 1 1 2 2 0 1 2 1 0 0 0 1 2 0 2 0 0 2 1 0 2 1 0 2 1 2 1 1 2 1 0 0]
预测准确率:  0.9333333333333333
   k   距离函数     预测准确率
0  1  曼哈顿距离  0.933333
1  3  曼哈顿距离  0.933333
2  5  曼哈顿距离  0.977778
3  7  曼哈顿距离  0.955556
4  9  曼哈顿距离  0.955556
5  1   欧氏距离  0.933333
6  3   欧氏距离  0.933333
7  5   欧氏距离  0.977778
8  7   欧氏距离  0.977778
9  9   欧氏距离  0.977778

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/247541.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第四十六天|139.单词拆分、多重背包、背包问题总结

题目&#xff1a;139.单词拆分 文章链接&#xff1a;代码随想录 视频链接&#xff1a;LeetCode:139.单词拆分 题目链接&#xff1a;力扣题目链接 图释&#xff1a; class Solution { public:bool wordBreak(string s, vector<string>& wordDict) {// 将字符串的列…

C++之类继承隐式转换实例(二百五十七)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

Hbase-2.4.11_hadoop-3.1.3集群_大数据集群_SSH修改默认端口22为其他端口---记录025_大数据工作笔记0185

其实修改起来非常简单,但是在大数据集群中,使用到了很多的脚步,也需要修改, 这里把,大数据集群,整体如何修改SSH端口,为22022,进行总结一下: 0.hbase-2.4.11的话,hbase集群修改默认SSH端口22,修改成22022,需要修改 需要修改/opt/module/hbase-2.4.11/conf/hbase-env.sh 这里…

解锁一些SQL注入的姿势

昨天课堂上布置了要去看一些sql注入的案例&#xff0c;以下是我的心得&#xff1a; ​​​​​​​ ​​​​​​​ ​​​​​​​ 1.新方法 打了sqli的前十关&#xff0c;我发现一般都是联合查询&#xff0c;但是有没有不是联合查询的方法呢&#xf…

如何搭建Nextcloud云存储网盘并实现无公网ip访问本地文件【内网穿透】

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【教学类-35-22】正式版 20240129名字字卡3.0(15CM正方形手工纸、先男后女,页眉是黑体包含全名,名字是红豆空心黑体)

作品展示 背景需求&#xff1a; 以下代码已经制作出页眉黑体、名字是空心黑体的样式&#xff1a; 【教学类-35-21】20240129名字字卡2.0&#xff08;15CM正方形手工纸、页眉是黑体&#xff0c;名字是红豆空心黑体&#xff09;-CSDN博客文章浏览阅读498次&#xff0c;点赞5次&…

Java多线程--同步机制解决线程安全问题方式一:同步代码块

文章目录 一、介绍二、原理三、同步锁机制&#xff08;1&#xff09;synchronized的锁是什么&#xff08;2&#xff09;同步操作的思考顺序&#xff08;3&#xff09;代码演示 四、同步代码块&#xff08;1&#xff09;同步代码块--案例11、案例12、分析同步原理3、案例1之this…

【Sql Server】新手一分钟看懂在已有表基础上增加字段和说明

欢迎来到《小5讲堂》&#xff0c;大家好&#xff0c;我是全栈小5。 这是《Sql Server》系列文章&#xff0c;每篇文章将以博主理解的角度展开讲解&#xff0c; 特别是针对知识点的概念进行叙说&#xff0c;大部分文章将会对这些概念进行实际例子验证&#xff0c;以此达到加深对…

单片机14-17

目录 LCD1602 LCD1602液晶显示屏 直流电机驱动&#xff08;PWM&#xff09; LED呼吸灯 直流电机调速 AD/DA&#xff08;SPI通信&#xff09; AD模数转换 DA数模转换 红外遥控&#xff08;外部中断&#xff09; 红外遥控 红外遥控电机调速 LCD1602 LCD1602液晶显示屏 …

使用dockers-compose搭建开源监控和可视化工具

简介 Prometheus 和 Grafana 是两个常用的开源监控和可视化工具。 Prometheus 是一个用于存储和查询时间序列数据的系统。它提供了用于监控和报警的数据收集、存储、查询和图形化展示能力。Prometheus 使用拉模型&#xff08;pull model&#xff09;&#xff0c;通过 HTTP 协议…

10s 内得到一个干净、开箱即用的 Linux 系统

安装 使用官方脚本安装我的服务器不行 官方脚本 mkdir instantbox && cd $_ bash <(curl -sSL https://raw.githubusercontent.com/instantbox/instantbox/master/init.sh) 下面是我的完整安装过程 mkdir /opt/instantbox cd /opt/instantbox 1.脚本文件 (这个没…

13.前端--CSS-盒子模型

1.盒子模型的组成 CSS 盒子模型本质上是一个盒子&#xff0c;封装周围的 HTML 元素&#xff0c;它包括&#xff1a;边框、外边距、内边距、和 实际内容 2.边框&#xff08;border&#xff09; 2.1 边框的使用 1、border设置元素的边框。边框有三部分组成:边框宽度(粗细) 边框…

【Git】项目管理笔记

文章目录 本地电脑初始化docker报错.gitignoregit loggit resetgit statusgit ls-filesgit rm -r -f --cached拉取仓库文件更新本地的项目报错处理! [rejected] master -> master (fetch first)gitgitee.com: Permission denied (publickey).error: remote origin already e…

在linux、window环境搭建kafka环境

一、搭建环境前置准备 下载kafka的官网 http://kafka.apache.org/downloads根据自己的需求选择版本,安装包不区分linux和windows环境,这一个安装包均可部署。 源代码包含kafka的代码文件,使用scala编写的。 二、linux环境 1. 上传安装包 我下载的版本是kafka_2.12-3.6.1…

盒子模型的内容总结

知识引入 1.认识盒子模型 在浏览网站时我们会发现内容都是按照区域划分的。这使得网页很工整、美观。在页面中&#xff0c;每一块区域分别承载不同的内容&#xff0c;使得网页的内容虽然零散&#xff0c;但是在版式排列上依然清晰有条理。如图1 图1 *承载内容的区域称为盒子…

幻兽帕鲁越玩越卡,内存溢出问题如何解决?

近期幻兽帕鲁游戏大火&#xff0c;在联机组队快乐游玩的同时&#xff0c;玩家们也发现了一些小问题。由于游戏有随机掉落材料的设定&#xff0c;服务器在加载掉落物的过程中很容易会出现掉帧、卡顿的情况。某些玩家甚至在游戏1&#xff5e;2时后就出现服务器崩溃的情况&#xf…

MarkDown快速入门-以Obsidian编辑器为例

直接上图&#xff0c;左右对应。 首先是基础语法。 # 标题&#xff0c;几个就代表几级标题&#xff1b;* 单个是序号&#xff0c;两个在一起就是斜体&#xff1b;- [ ] 代表任务&#xff0c;注意其中的空格&#xff1b; 然后是表格按钮代码 | 使用中竖线代表表格&#xff0c…

操作系统-调度的概念,层次(低中高级调度和挂起状态与七模型)和进程调度的过程,时机,切换,方式(临界区,进程调度的时机,方式,切换与过程)

文章目录 调度的概念&#xff0c;层次总览调度的基本概念调度的三个层次-高级调度调度的三个层次-低级调度调度的三个层次-中级调度补充&#xff1a;挂起状态与七状态模型三层调度的联系&#xff0c;对比小结 进程调度的过程&#xff0c;时机&#xff0c;切换&#xff0c;方式总…

源聚达科技:开一家抖音店铺怎么做最好

在数字化浪潮的推动下&#xff0c;抖音不仅是年轻人展示才华的舞台&#xff0c;也成为商家争夺流量的新阵地。开一家抖音店铺&#xff0c;看似简单&#xff0c;实则需要精心策划和周到运营。 首要任务是确立店铺定位。正如古人云“磨刀不误砍柴工”&#xff0c;明确目标受众和主…

k8s 进阶实战笔记 | Scheduler 调度策略总结

文章目录 Scheduler 调度策略总结调度原理和过程调度策略nodeSelect亲和性和反亲和性NodeAffinify亲和验证PodAffinity 亲和验证PodAntiAffinity 反亲和验证污点与容忍跳过 Scheduler 调度策略 调度策略场景总结 Scheduler 调度策略总结 调度原理和过程 Scheduler 一直监听着…