【数据挖掘】--算法

【数据挖掘】--算法

  • 目录:
  • 1. 缺失值和数值属性处理
    • 1缺失值处理:
  • 2. 用于文档分类的朴素贝叶斯
  • 3. 分治法:建立决策树
  • 4. 覆盖算法建立规则
  • 5. 挖掘关联规则
  • 6. 线性模型
    • 有效寻找最近邻
      • 暴力搜索(Brute-Force Search)
      • kd树(k-dimensional Tree)
      • 局部敏感哈希(Locality Sensitive Hashing,LSH)
      • 球树(Ball Tree)
      • 局部敏感哈希(Locality Sensitive Hashing,LSH)
  • 7. 基于实例的学习
  • 8. 聚类
  • 9. Weka

目录:

1. 缺失值和数值属性处理

1缺失值处理:

删除法:当缺失值比例较小时,可删除包含缺失值的样本。但这种方法会损失数据,可能影响模型准确性。例如在一个客户信息表中,若少数客户的某个不关键属性有缺失值,可删除这些记录。
- 填补法
- 均值/中位数填补:对于数值属性,用该属性的均值或中位数填补缺失值。比如在学生成绩数据中,用平均成绩填补缺失的成绩值。
- 模型预测填补:利用其他属性和机器学习模型预测缺失值。如使用线性回归模型,基于学生的平时表现、作业成绩等属性预测缺失的考试成绩。

  • 数值属性处理
    • 归一化:将数值属性的值映射到[0, 1]或[-1, 1]区间,消除量纲影响。常见方法有最小 - 最大归一化: x n e w = x − x m i n x m a x − x m i n x_{new}=\frac{x - x_{min}}{x_{max}-x_{min}} xnew=xmaxxminxxmin。例如在处理不同单位的身高和体重数据时,归一化可使它们在同一尺度上。
    • 标准化使数据具有零均值和单位方差,公式为 z = x − μ σ z=\frac{x - \mu}{\sigma} z=σxμ,其中 μ \mu μ是均值, σ \sigma σ是标准差。这在许多基于距离的算法中很重要,如K近邻算法。

2. 用于文档分类的朴素贝叶斯

朴素贝叶斯基于贝叶斯定理和特征条件独立假设。==假设文档$d$由特征向量$x=(x_1,x_2,\cdots,x_n)$表示,类别为$C$==。贝叶斯定理为$P(C|x)=\frac{P(x|C)P(C)}{P(x)}$。由于特征条件独立假设,$P(x|C)=\prod_{i = 1}^{n}P(x_i|C)$。

例如在垃圾邮件分类中, C C C表示“垃圾邮件”和“非垃圾邮件”类别, x i x_i xi可以是邮件中出现的单词。通过训练数据计算 P ( C ) P(C) P(C)(先验概率)和 P ( x i ∣ C ) P(x_i|C) P(xiC)(似然概率),进而对新邮件进行分类。

3. 分治法:建立决策树

  • 计算信息量:信息熵是衡量数据不确定性的指标,
  • **公式为$H(X)=-\sum_{i = 1}^{n}p(x_i)\log_2p(x_i)$
  • 其中 p ( x i ) p(x_i) p(xi)是事件 x i x_i xi发生的概率。在决策树构建中,通过计算信息增益来选择分支属性。****
  • 信息增益 $IG(X,Y)=H(X)-H(X|Y)$,$H(X)$是数据集$X$的熵 H ( X ∣ Y ) H(X|Y) H(XY)是在属性 Y Y Y给定条件下 X X X的条件熵
  • 高度分支属性通常选择信息增益最大的属性作为分支属性,这样能使决策树在每一步划分后,数据的不确定性减少最多。例如在根据天气属性(晴天、多云、雨天等)和温度属性划分是否适合户外运动的数据集时,计算每个属性的信息增益,选择信息增益大的属性优先进行分支。
    在这里插入图片描述

4. 覆盖算法建立规则

  • 一个简单的覆盖方法:从整个数据集开始,找到一条能覆盖尽可能多正例且少覆盖反例的规则。然后从数据集中移除该规则覆盖的正例,重复上述过程,直到所有正例都被覆盖。例如在一个二分类任务中,先找到一条规则“如果年龄
    在这里插入图片描述

30 且收入 > 50000,那么类别为 A”,移除符合该规则的正例后继续寻找下一条规则。

  • 规则与决策列表决策列表是由一系列规则组成,按顺序应用这些规则进行分类。挖掘决策列表时,每次选择最优规则添加到列表中,并更新数据集,直到数据集分类完成

在这里插入图片描述

5. 挖掘关联规则

  • 项集:项集是一组项的集合。例如在超市购物篮数据中,{牛奶, 面包}就是一个项集。频繁项集是指出现次数达到一定阈值的项集。
  • 关联规则形如 A ⇒ B A \Rightarrow B AB,表示如果项集 A A A出现,那么项集 B B B也可能出现。例如“购买啤酒的顾客也倾向于购买尿布”。
  • 有效的生成规则:常用Apriori算法,它基于“频繁项集的所有非空子集也一定是频繁的”这一先验性质,通过逐层搜索生成频繁项集,进而生成关联规则。首先找到频繁1 - 项集,然后生成候选2 - 项集,剪枝得到频繁2 - 项集,以此类推。

6. 线性模型

  • 数值预测:线性回归:假设因变量 y y y与自变量$x_1,x_2,\cdots,x_n$之间存在线性关系 加粗样式 y = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n + ϵ 加粗样式y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\epsilon 加粗样式y=β0+β1x1+β2x2++βnxn+ϵ

  • 其中 β i \beta_i βi是系数, ϵ \epsilon ϵ是误差项。通过最小化损失函数(如均方误差 M S E = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 MSE=\frac{1}{n}\sum_{i = 1}^{n}(y_i - \hat{y}_i)^2 MSE=n1i=1n(yiy^i)2

  • y i y_i yi是真实值, y ^ i \hat{y}_i y^i是预测值)来确定系数 β i \beta_i βi。例如预测房价, y y y是房价, x 1 x_1 x1是房屋面积, x 2 x_2 x2 是房间数量等。

  • 线性分类:Logistic回归:用于二分类问题,通过将线性函数的输出经过Sigmoid函数 σ ( z ) = 1 1 + e − z \sigma(z)=\frac{1}{1 + e^{-z}} σ(z)=1+ez1
    在这里插入图片描述

  • 将结果映射到[0, 1]区间,表示样本属于正类的概率。损失函数通常使用对数似然损失,通过梯度下降等方法优化参数。

  • 使用感知机的线性分类:感知机是一种简单的线性分类模型,通过权重向量 w w w和偏置 b b b对输入特征向量 x x x进行线性组合 y = sign ( w T x + b ) y = \text{sign}(w^Tx + b) y=sign(wTx+b),其中 sign \text{sign} sign是符号函数。感知机通过不断调整 w w w b b b,使误分类样本数量减少。

  • 使用Winnow的线性分类Winnow是一种用于在线学习的线性分类算法,它通过对权重进行指数式更新来处理二分类问题,对不同特征赋予不同的权重,更关注重要特征

有效寻找最近邻

暴力搜索(Brute-Force Search)

  • 原理:对于给定的查询点,计算它与数据集中所有点的距离,然后找出距离最小的点,即最近邻。
  • 示例:假设有一个包含多个二维点的数据集{(1,2), (3,4), (5,6), (7,8)},要查找点(2,3)的最近邻。通过计算(2,3)与数据集中每个点的欧氏距离,如与(1,2)的距离为 ( 2 − 1 ) 2 + ( 3 − 2 ) 2 = 2 \sqrt{(2 - 1)^2+(3 - 2)^2}=\sqrt{2} (21)2+(32)2 =2 ,与(3,4)的距离为 ( 2 − 3 ) 2 + ( 3 − 4 ) 2 = 2 \sqrt{(2 - 3)^2+(3 - 4)^2}=\sqrt{2} (23)2+(34)2 =2 等,比较后发现(1,2)(3,4)都是(2,3)的最近邻。
  • 优缺点:优点是实现简单,在数据集较小时效果较好;缺点是当数据集规模较大时,计算量呈指数增长,效率低下。

kd树(k-dimensional Tree)

  • 原理:将数据点按照k维空间进行划分,构建树形结构。在搜索最近邻时,利用树的结构快速排除不可能是最近邻的区域,从而减少计算量。

  • 示例:对于二维数据集,kd树可能会按照x轴或y轴交替划分数据空间。比如有数据点(1,1), (2,3), (4,2), (3,5),可能先按照x轴将空间分为两部分,左边包含(1,1),右边包含(2,3), (4,2), (3,5),然后在右半部分再按照y轴划分等。在查找最近邻时,从根节点开始,根据查询点与节点的位置关系决定搜索路径。

  • 优缺点适用于低维数据,能显著提高搜索效率;但在高维数据下,性能可能下降,存在“维数灾难”问题

  • 原理:将数据点划分到一系列嵌套的球中,每个节点对应一个球,球内包含若干数据点。搜索时,通过判断查询点与球的位置关系,快速确定是否需要在该球内继续搜索。

  • 示例:假设有一组三维数据点,球树会将这些点划分到不同的球中,比如一个球内包含(1,1,1), (2,2,2), (3,3,3)等点,另一个球内包含(4,4,4), (5,5,5)等点。在查找最近邻时,先判断查询点位于哪些球附近,再进一步在这些球内搜索。

  • 优缺点:相比kd树,在高维数据下可能有更好的性能;但构建球树的时间和空间复杂度较高。

在这里插入图片描述

在这里插入图片描述

局部敏感哈希(Locality Sensitive Hashing,LSH)

  • 原理利用哈希函数将数据点映射到哈希桶中,使得相似的数据点有较高概率被映射到同一个哈希桶或相邻的哈希桶中。在搜索时,只需在查询点所在的哈希桶及相邻哈希桶中查找最近邻。
  • 示例:对于文本数据,可以根据文本的特征构建哈希函数。例如,将文本中出现的单词组合作为特征,通过哈希函数将文本映射到不同的哈希桶。如果两个文本相似,它们包含的单词组合相似,就可能被映射到同一个或相邻的哈希桶中。
  • 优缺点能快速处理大规模数据,在高维数据和近似最近邻搜索中表现出色;但可能会有一定的误报率,即找到的不一定是真正的最近邻,而是近似最近邻。

球树(Ball Tree)

  • 原理:将数据点划分到一系列嵌套的球中,每个节点对应一个球,球内包含若干数据点。搜索时,通过判断查询点与球的位置关系,快速确定是否需要在该球内继续搜索。
  • 示例:假设有一组三维数据点,球树会将这些点划分到不同的球中,比如一个球内包含(1,1,1), (2,2,2), (3,3,3)等点,另一个球内包含(4,4,4), (5,5,5)等点。在查找最近邻时,先判断查询点位于哪些球附近,再进一步在这些球内搜索。
  • 优缺点:相比kd树,在高维数据下可能有更好的性能;但构建球树的时间和空间复杂度较高。

局部敏感哈希(Locality Sensitive Hashing,LSH)

  • 原理:利用哈希函数将数据点映射到哈希桶中,使得相似的数据点有较高概率被映射到同一个哈希桶或相邻的哈希桶中。在搜索时,只需在查询点所在的哈希桶及相邻哈希桶中查找最近邻。
  • 示例:对于文本数据,可以根据文本的特征构建哈希函数。例如,将文本中出现的单词组合作为特征,通过哈希函数将文本映射到不同的哈希桶。如果两个文本相似,它们包含的单词组合相似,就可能被映射到同一个或相邻的哈希桶中。
  • 优缺点:能快速处理大规模数据,在高维数据和近似最近邻搜索中表现出色;但可能会有一定的误报率,即找到的不一定是真正的最近邻,而是近似最近邻。
    ht-aligned 文本居右 |

7. 基于实例的学习

**- 距离函数:用于衡量实例之间的相似性,常见的有欧几里得距离 d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2 d(x,y)=\sqrt{\sum_{i = 1}^{n}(x_i - y_i)^2} d(x,y)=i=1n(xiyi)2 ,曼哈顿距离 d ( x , y ) = ∑ i = 1 n ∣ x i − y i ∣ d(x,y)=\sum_{i = 1}^{n}|x_i - y_i| d(x,y)=i=1nxiyi。例如在二维空间中,计算两个点之间的距离。

  • 有效寻找最近邻:可以使用KD - 树等数据结构加速最近邻搜索。KD - 树将数据空间递归划分,通过比较当前节点的分割轴坐标,快速定位可能包含最近邻的子空间。**

8. 聚类

  • 基于距离的迭代聚类:如K - Means算法,首先随机选择 k k k个质心,然后将每个样本分配到距离最近的质心所在的簇,接着重新计算每个簇的质心,重复上述过程直到质心不再变化或达到最大迭代次数。目标函数是最小化每个样本到其所属簇质心的距离平方和

J = ∑ i = 1 k ∑ x j ∈ C i ∥ x j − μ i ∥ 2 J=\sum_{i = 1}^{k}\sum_{x_j \in C_i}\left \| x_j - \mu_i \right \|^2 J=i=1kxjCixjμi2,其中 k k k是簇的数量, C i C_i Ci是第 i i i个簇, μ i \mu_i μi是第 i i i个簇的质心, x j x_j xj

数据点。

  • 快速距离计算:对于大规模数据集,可以采用一些近似算法或利用数据结构加速距离计算,如使用三角不等式等性质减少不必要的距离计算。

  • 多实例学习:与传统单实例学习不同,多实例学习中每个样本由多个实例组成一个包(bag),标签作用于包而不是单个实例。例如在图像分类中,一张图像可能包含多个物体,图像(包)被标记为包含某种物体(正例)或不包含(反例),但不知道具体哪个物体实例对应标签。

  • 聚集输入:将多个输入实例组合成一个更复杂的输入表示,例如将多个时间序列数据聚合为一个特征矩阵,以捕捉数据的全局特征。

  • 聚集输出:将多个模型的输出进行聚合,如在集成学习中,将多个分类器的预测结果通过投票、平均等方式聚合,得到最终的预测结果。
    在这里插入图片描述

9. Weka

Weka是一个基于Java的开源机器学习软件,包含了大量的机器学习算法和工具。它提供了图形界面(如Explorer、Experimenter等)和命令行界面,方便用户进行数据预处理、模型训练、评估等操作。例如,在Weka的Explorer界面中,可以直接加载ARFF格式数据,选择不同的分类算法(如朴素贝叶斯、决策树等)进行训练和测试,并查看模型性能指标。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20701.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是Grok-3?技术特点,场景,潜在问题与挑战

Grok-3 的技术特点与优势 1. 超大算力与训练规模 算力投入:Grok-3 使用了 20 万块英伟达 H100 GPU,分两个阶段训练(第一阶段 10 万 GPU 训练 144 天,第二阶段 20 万 GPU 训练 92 天),总计算量是前代 Grok-2 的 10 倍。这种规模远超同期其他项目(如印度的 1.8 万 GPU 公…

爬取网站内容转为markdown 和 html(通常模式)

我们遇到一些自己喜欢内容,想保存下来,手动复制粘贴很麻烦,我们使用 python 来爬取这些内容。 一、代码 downlod.py import os import requests from bs4 import BeautifulSoup from urllib.parse import urljoin# 目标网页(可…

Java 大视界 -- 企业数字化转型中的 Java 大数据战略与实践(93)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

交换路由——控制VLAN之间通信

项目 最近一段时间,A公司发现划分VLAN之后,网速提高很多,发生拥堵的情况消失了.但是,部门之间不能互联,也给办公室带来不便.公司要求项目实施各VLAN内主机互通。 部门 VLAN 名称 端口范围 网络ID 计算机 市场部 VLAN 10 shichang f0/1-f/010 192.168.10.0/24 pc0,pc…

一文读懂Docker之Docker Compose

目录 一、Docker Compose简介 二、Docker Compose的安装和基本使用 1、Docker Compose的安装 步骤一、下载docker-compose 步骤二、新增可执行权限 步骤三、查看是否安装成功 2、Docker Compose的基本使用 (1)、docker-compose up (2)、docker-compose ps (3)、docke…

拯救者电脑在重装系统之后电源计划丢失Fn+Q切换不了模式怎么恢复?

参考联想知识库的一下链接: https://iknow.lenovo.com.cn/detail/196192 其中下载的解压文件后的文件需要复制粘贴到D盘的根目录下,再来运行文件。若在生成的log文件中看到导入成功以及控制面板中看到已添加的电源计划即可 如果还是无效可是试试以下的…

让编程变成一种享受-明基RD320U显示器

引言 作为一名有着多年JAVA开发经验的从业者,在工作过程中,显示器的重要性不言而喻。它不仅是我们与代码交互的窗口,更是影响工作效率和体验的关键因素。在多年的编程生涯中,我遇到过各种各样的问题。比如,在进行代码…

React入门案例-Hello React案例

需求 为了演练React,我们可以提出一个小的需求: 在界面显示一个文本:Hello World 点击下方的一个按钮,点击后文本改变为Hello React 但是,我们使用React实现之前,先使用原生代码来实现,这样更加方便大家对比React和原生: 当然,你也可以使用jQuery和Vue来实现,对它…

【SpringBoot】SpringBoot中分页插件(PageHelper)的使用

目录 1.分页概念 2.原生写法 3.PageHelper插件分页查询 3.1 介绍 3.2?使用 3.3 Page对象和PageInf对象 1.分页概念 用户查询的数据不可能一次性全部展示给用户(如果用户有一万条数据呢),而是分页展示给用户,这就是分页查询…

解锁 AIoT 无限可能,乐鑫邀您共赴 Embedded World 2025

2025 年 3 月 11-13 日,全球规模最大的嵌入式展览会——Embedded World 2025 将在德国纽伦堡盛大开幕。作为物联网和嵌入式技术领域的领先企业,乐鑫信息科技 (688018.SH) 将展示在 AI LLM、HMI、双频 Wi-Fi 6、低功耗 MCU 和 Matter 等领域的最新技术及解…

学习数据结构(11)二叉树(堆)下

1.堆的概念 如果有⼀个集合 K {k0&#xff0c;k1&#xff0c;k2&#xff0c;...&#xff0c;k(n-1)} &#xff0c;把它的所有元素按完全二叉树的形式存储在一个一维数组中&#xff0c;并满足&#xff1a;K(i)<2*i1且K(i)<2*i2&#xff08;K(i)>2*i1且K(i)>2*i2&a…

​实在智能与宇树科技、云深科技一同获评浙江省“人工智能服务商”、 “数智优品”​等荣誉

近日&#xff0c;浙江省经信厅正式公布《2024 年浙江省人工智能应用场景、应用标杆企业、人工智能服务商及 “数智优品” 名单》。 实在智能获评浙江省“人工智能服务商”&#xff0c;核心产品 “实在 Agent 智能体” 入选 “数智优品”。一同获此殊荣的还有宇树科技、云深处科…

Redis7——基础篇(五)

前言&#xff1a;此篇文章系本人学习过程中记录下来的笔记&#xff0c;里面难免会有不少欠缺的地方&#xff0c;诚心期待大家多多给予指教。 基础篇&#xff1a; Redis&#xff08;一&#xff09;Redis&#xff08;二&#xff09;Redis&#xff08;三&#xff09;Redis&#x…

矿用机车移动逆变电源设计(论文+源码)

1总体方案设计 本课题为矿用机车移动逆变电源的硬件电路设计&#xff0c;其整个架构如图2.1所示包括了:380V三相交流电&#xff0c;逆变电路&#xff0c;高频变压器&#xff0c;24V直流输出&#xff0c;控制电路&#xff0c;驱动电路&#xff0c;保护电路等等。 在工作原理上&…

深入浅出:0 - 1 背包问题的滚动数组解法

目录 一、引言二、0 - 1 背包问题概述2.1 问题定义2.2 具体示例 三、动态规划与滚动数组思路3.1 二维动态规划思路3.2 滚动数组优化思路 四、具体分析全过程4.1 初始化 dp 数组4.2 考虑物品 0&#xff08;重量为 1&#xff0c;价值为 15&#xff09;4.2.1 当 j 44.2.2 当 j 3…

spring学习(spring容器、加载配置文件方式、获取bean的方式)

目录 一、加载spring配置文件的几种方式。 &#xff08;0&#xff09;工程文件初始化。 &#xff08;1&#xff09;加载类路径下的配置文件。&#xff08;常见&#xff09; &#xff08;2&#xff09;加载文件绝对路径的配置文件。 &#xff08;3&#xff09;加载多个配置文件。…

DeepSeek-R1论文阅读及蒸馏模型部署

DeepSeek-R1论文阅读及蒸馏模型部署 文章目录 DeepSeek-R1论文阅读及蒸馏模型部署摘要Abstract一、DeepSeek-R1论文1. 论文摘要2. 引言3. DeepSeek-R1-Zero的方法3.1 强化学习算法3.2 奖励建模3.3 训练模版3.4 DeepSeek-R1-Zero的性能、自进化过程和顿悟时刻 4. DeepSeek-R1&am…

华为动态路由-OSPF-骨干区

华为动态路由-OSPF-骨干区 一、OSPF简介 1、OSPF概述 OSPF是一种开放式的、基于链路状态的内部网关协议&#xff08;IGP&#xff09;&#xff0c;用于在自治系统内部进行路由选择和通信。 OSPF是互联网工程任务组&#xff08;IETF&#xff09;定义的标准之一&#xff0c;被广…

RocketMQ - 常见问题

RocketMQ常见问题 文章目录 RocketMQ常见问题一&#xff1a;消息幂等问题1&#xff1a;什么是消费幂等2&#xff1a;消息重复的场景分析2.1&#xff1a;发送时消息重复2.2&#xff1a;消费时消息重复2.3&#xff1a;Rebalance时消息重复 3&#xff1a;通用解决方案3.1&#xff…

MySQL登录问题总结

不管何种数据库&#xff0c;使用的第一步都是先登录。 MySQL命令行登录语句&#xff1a;mysql -u username -P port -p -D database_name 登录MySQL的报错一般从报错信息都能得到反馈&#xff0c;常见报错原因分析如下&#xff0c;实例中的以test用户为例&#xff0c;登录环境为…