Python实现t-分布随机邻域嵌入(t-SNE)降维算法

目录

      • Python实现t-分布随机邻域嵌入(t-SNE)降维算法的博客
        • 引言
        • t-SNE算法原理
        • t-SNE的优势与局限
        • Python实现t-SNE算法
          • 1. 创建t-SNE类
          • 2. 示例场景:MNIST手写数字数据集
          • 3. 结果分析
        • 结论
        • 运行结果

Python实现t-分布随机邻域嵌入(t-SNE)降维算法的博客

引言

在数据科学和机器学习中,降维技术是用于降低数据维度并且保留重要特征的关键方法。当我们处理高维数据时,常规的线性降维方法如PCA(主成分分析)可能不足以捕捉数据的非线性结构。为此,t-分布随机邻域嵌入(t-SNE)算法作为一种强大的非线性降维工具,被广泛用于高维数据的可视化和聚类分析。本文将详细介绍t-SNE算法的原理,并使用Python进行实现。我们将通过一个具体的场景来展示如何使用t-SNE算法实现降维。

t-SNE算法原理

t-SNE(t-Distributed Stochastic Neighbor Embedding)是一种非线性降维算法,旨在将高维数据映射到低维空间(通常是二维或三维),以便进行数据可视化。t-SNE通过保留高维空间中数据点的局部邻域结构,使得降维后的数据点在低维空间中保持相似的局部关系。t-SNE算法的核心思想可以分为以下几步:

  1. 高维空间中的相似度计算
    t-SNE首先在高维空间中计算数据点之间的相似度。具体而言,给定两个数据点 x i x_i xi x j x_j xj,其在高维空间中的相似度由条件概率 p j ∣ i p_{j|i} pji表示。这个概率反映了在高维空间中选择点 x j x_j xj作为点 x i x_i xi邻居的概率。t-SNE假设高维数据分布遵循高斯分布,并通过高斯核函数计算条件概率:
    p j ∣ i = exp ⁡ ( − ∥ x i − x j ∥ 2 / 2 σ i 2 ) ∑ k ≠ i exp ⁡ ( − ∥ x i − x k ∥ 2 / 2 σ i 2 ) p_{j|i} = \frac{\exp(-\|x_i - x_j\|^2 / 2\sigma_i^2)}{\sum_{k \neq i} \exp(-\|x_i - x_k\|^2 / 2\sigma_i^2)} pji=k=iexp(xixk2/2σi2)exp(xixj2/2σi2)
    其中, σ i \sigma_i σi是根据点 x i x_i xi 的局部密度自适应调整的参数。

  2. 低维空间中的相似度计算
    在低维空间中,t-SNE使用t-分布而非高斯分布来计算相似度。t-分布在低维空间中具有较长的尾部,这使得t-SNE能够更好地处理数据点间的较大距离。给定两个低维数据点 y i y_i yi y j y_j yj,其相似度由条件概率 q j ∣ i q_{j|i} qji 表示:
    q i j = ( 1 + ∥ y i − y j ∥ 2 ) − 1 ∑ k ≠ l ( 1 + ∥ y k − y l ∥ 2 ) − 1 q_{ij} = \frac{(1 + \|y_i - y_j\|^2)^{-1}}{\sum_{k \neq l} (1 + \|y_k - y_l\|^2)^{-1}} qij=k=l(1+ykyl2)1(1+yiyj2)1
    t-分布通过其较长的尾部,更容易将远距离的数据点推远,从而使得局部结构更加清晰。

  3. 最小化KL散度
    t-SNE通过最小化高维空间中的条件概率分布 P P P 和低维空间中的条件概率分布 Q Q Q 之间的Kullback-Leibler散度(KL散度)来优化低维嵌入:
    K L ( P ∥ Q ) = ∑ i ∑ j p j ∣ i log ⁡ p j ∣ i q j ∣ i KL(P \| Q) = \sum_i \sum_j p_{j|i} \log \frac{p_{j|i}}{q_{j|i}} KL(PQ)=ijpjilogqjipji
    通过最小化KL散度,t-SNE确保在低维空间中,具有相似关系的数据点保持紧密,而不相似的数据点分离开。

  4. 梯度下降优化
    为了最小化KL散度,t-SNE使用梯度下降法进行优化。算法通过逐步调整低维空间中的数据点位置,来减少KL散度的值,从而得到低维空间中的嵌入。

t-SNE的优势与局限

t-SNE的最大优势在于它能够很好地保留数据的局部结构,非常适合高维数据的可视化。它常用于揭示数据中的聚类或流形结构,尤其适用于处理复杂的非线性数据。

然而,t-SNE也存在一些局限性。首先,它的计算复杂度较高,尤其是在处理大规模数据时。其次,t-SNE对参数(如学习率和邻居数)的选择较为敏感,参数设置不当可能导致结果不理想。此外,t-SNE在降维时可能会丢失全局结构信息,这意味着它更适合用于局部结构的探索,而非全局结构的分析。

Python实现t-SNE算法

接下来,我们将使用Python实现t-SNE算法,并将其封装到一个面向对象的类中。

1. 创建t-SNE类
import numpy as np
from scipy.spatial.distance import pdist, squareformclass TSNE:def __init__(self, n_components=2, perplexity=30.0, learning_rate=200.0, n_iter=1000):self.n_components = n_componentsself.perplexity = perplexityself.learning_rate = learning_rateself.n_iter = n_iterself.Y = None  # Embeddings in low-dimensional spacedef _h_beta(self, D, beta):P = np.exp(-D * beta)sumP = np.sum(P)if sumP == 0:sumP = 1e-10  # Avoid division by zeroH = np.log(sumP) + beta * np.sum(D * P) / sumPP = P / sumPreturn H, Pdef _binary_search(self, D, target, tol=1e-5, max_iter=50):beta_min = -np.infbeta_max = np.infbeta = 1.0H, P = self._h_beta(D, beta)Hdiff = H - np.log(target)iter_count = 0while np.abs(Hdiff) > tol and iter_count < max_iter:if Hdiff > 0:beta_min = betaif beta_max == np.inf:beta *= 2else:beta = (beta + beta_max) / 2else:beta_max = betaif beta_min == -np.inf:beta /= 2else:beta = (beta + beta_min) / 2H, P = self._h_beta(D, beta)Hdiff = H - np.log(target)iter_count += 1return Pdef fit(self, X):n_samples = X.shape[0]target_perplexity = np.log(self.perplexity)P = np.zeros((n_samples, n_samples), dtype=np.float64)for i in range(n_samples):Di = np.square(X[i] - X).sum(axis=1).astype(np.float64)Di[i] = np.inf  # Exclude self-distanceP[i] = self._binary_search(Di, target_perplexity)P = (P + P.T) / (2 * n_samples)P = np.maximum(P, 1e-12)  # Prevent log(0)self.Y = np.random.randn(n_samples, self.n_components)for iter in range(self.n_iter):D_Y = squareform(pdist(self.Y, 'sqeuclidean'))Q = np.exp(-D_Y / 2)Q[np.diag_indices_from(Q)] = 0  # Zero out diagonal (self-similarity)Q = np.maximum(Q, 1e-12)  # Prevent log(0)Q /= Q.sum()PQ = P - Qfor i in range(n_samples):gradient = np.sum((PQ[:, i][:, np.newaxis] * (self.Y[i] - self.Y)), axis=0)self.Y[i] += self.learning_rate * gradientif iter % 100 == 0:cost = np.sum(P * np.log(P / Q))print(f"Iteration {iter}: cost = {cost}")def transform(self):"""返回降维后的数据:return: 降维后的数据"""return self.Y
2. 示例场景:MNIST手写数字数据集

为了演示如何使用t-SNE算法,我们将使用经典的MNIST手写数字数据集。该数据集包含10个类别的手写数字,每个样本是一个28x28的灰度图像。我们将使用t-SNE将784维的图像数据降维到2维空间,并进行可视化。

from sklearn.datasets import fetch_openml
import matplotlib.pyplot as plt# 加载MNIST数据集
mnist = fetch_openml('mnist_784', version=1)
X, y = mnist["data"], mnist["target"]# 随机抽取1000个样本进行降维
np.random.seed(42)
indices = np.random.choice(X.shape[0], 1000, replace=False)
X_subset, y_subset = X.iloc[indices], y.iloc[indices]# 使用TSNE类进行降维
tsne = TSNE(n_components=2, perplexity=30.0, learning_rate=200.0, n_iter=1000)
tsne.fit(X_subset.values)
Y = tsne.transform()# 可视化
plt.scatter(Y[:, 0], Y[:, 1], c=y_subset.astype(int), cmap='tab10', s=50, alpha=0.8)
plt.colorbar()
plt.title("t-SNE visualization of MNIST")
plt.show()
3. 结果分析

通过上述代码,我们可以将高维的MNIST数据集降维到2维,并对不同的数字类别进行可视化。我们可以观察到,t-SNE算法能够有效地将不同类别的数据点分离开来,形成不同的簇。每个簇代表一个手写数字类别,从而使我们能够直观地识别数据的聚类结构。

结论

t-SNE是一种强大的非线性降维技术,特别适用于高维数据的可视化和聚类分析。在本篇博客中,我们详细介绍了t-SNE算法的原理,并使用Python实现了该算法。通过对MNIST手写数字数据集的降维和可视化,我们展示了t-SNE在揭示数据结构方面的优势。然而,t-SNE在大规模数据集上的计算开销较高,对参数设置敏感,因此在实际应用中需要仔细调优和考虑其局限性。希望本文对您理解t-SNE算法有所帮助,并能在实际项目中应用这一技术。

运行结果

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/410657.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024上海初中生古诗文大会备考:单选题真题和每道题独家解析

新学年开学倒计时了&#xff0c;也意味着上海中小学生的几项传统赛事即将拉开帷幕了。 其中&#xff0c;2024年初中生古诗文大会初选还有2个多月&#xff08;官宣了11月3日线上初选正式开赛&#xff09;&#xff0c;我们来看10道历年的选择题真题和详细解析。为帮助孩子自测和…

模型 KT决策法

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_思维模型目录。系统分析&#xff0c;明智选择。 1 KT决策法的应用 1.1 餐饮连锁店菜单更新 一家餐饮连锁店计划更新菜单&#xff0c;以吸引更多顾客并提高销售额。使用 KT 决策法&#xff08;Kepner-Tregoe&#x…

xss-labs靶场通关详解(11-15关)

第11关 referer 进行抓包 添加referer:click me!" type"button" οnmοuseοver"alert(/xss/)进行放包 第12关 进行抓包 修改User Agent&#xff1a;click me!" type"button" οnmοuseοver"alert(/xss/)进行放包 第13关 抓包 修改C…

python可视化-密度图

1、加载数据 import pandas as pd import numpy as np from sklearn.datasets import load_iris import warnings# 禁用所有警告信息 warnings.filterwarnings(ignore)# 加载数据 iris load_iris() iris iris.keys() df pd.DataFrame(iris.data, columnsiris.feature_names)…

mac nvm安装及使用(nvm安装指定版本node npm pnpm)

mac nvm安装及使用&#xff08;nvm安装指定版本node npm pnpm&#xff09; 1.卸载电脑的node 打开终端&#xff1a;依次执行以下命令&#xff1a; sudo rm -rf /usr/local/bin/npm sudo rm -rf /usr/local/share/man/man1/node.1 sudo rm -rf /usr/local/lib/dtrace/node.d s…

开源word文档相似度对比 软件WinMerge

WinMerge 官网下载 &#xff1a;GitHub - WinMerge/winmerge: WinMerge is an Open Source differencing and merging tool for Windows. WinMerge can compare both folders and files, presenting differences in a visual text format that is easy to understand and hand…

API网关之Kong

Kong 是一个高性能的开源 API 网关和微服务管理平台&#xff0c;用于管理、保护和扩展 API 和微服务。它最初由 Mashape 公司开发&#xff0c;并于 2015 年作为开源项目发布。Kong 能够处理 API 的路由、认证、负载均衡、缓存、监控、限流等多种功能&#xff0c;是微服务架构中…

网络应用层之(2)DNS协议

网络应用层之(2)DNS协议 Author: Once Day Date: 2024年8月12日 一位热衷于Linux学习和开发的菜鸟&#xff0c;试图谱写一场冒险之旅&#xff0c;也许终点只是一场白日梦… 漫漫长路&#xff0c;有人对你微笑过嘛… 全系列文章可参考专栏: 通信网络技术_Once-Day的博客-CSDN…

PyTorch深度学习网络(二:CNN)

卷积神经网络&#xff08;CNN&#xff09;是一种专门用于处理具有类似网格结构数据的深度学习模型&#xff0c;例如图像&#xff08;2D网格的像素&#xff09;和时间序列数据&#xff08;1D网格的信号强度&#xff09;。CNN在图像识别、图像分类、物体检测、语音识别等领域有着…

R语言绘制可用于论文发表的生存曲线图|科研绘图·24-08-25

小罗碎碎念 有关于生存曲线的基本概念&#xff08;例如删失事件的定义&#xff09;和绘图的详细教程我已经在5月的推文中介绍过了&#xff0c;有需求的同学欢迎前去考古。 R语言绘制生存分析曲线从概念到实战的保姆级教程&#xff5c;2024-05-12 https://mp.weixin.qq.com/s/Z…

SQL进阶技巧:如何按任意时段分析时间区间问题? | 分区间讨论【左、中、右】

目录 0 场景描述 1 数据准备 2 问题分析 方法1:分情况讨论,找出重叠区间 方法2:暴力美学法。按区间展开成日期明细表 3 拓展案例 4小结 0 场景描述 现有用户还款计划表 user_repayment ,该表内的一条数据,表示用户在指定日期区间内 [date_start, date_end] ,每天…

秋招突击——8/21——知识补充——计算机网络——cookie、session和token

文章目录 引言正文Cookie——客户端存储和管理Session——服务端存储和管理Token补充签名和加密的区别常见的加密算法和签名算法 面试题1、HTTP用户后续的操作&#xff0c;服务端如何知道属于同一个用户&#xff1f;如果服务端是一个集群机器怎么办&#xff1f;2、如果禁用了Co…

【Python 千题 —— 基础篇】简易图书管理系统

Python 千题持续更新中 …… 脑图地址 👉:⭐https://twilight-fanyi.gitee.io/mind-map/Python千题.html⭐ 题目描述 题目描述 编写一个面向对象的程序,模拟一个图书管理系统。要求定义一个 Book 类,具有基本的书籍信息功能;然后,创建一个 Library 类,用于管理多个 B…

Vue3搜索框(InputSearch)

效果如下图&#xff1a;在线预览 APIs InputSearch 参数说明类型默认值width搜索框宽度&#xff0c;单位 pxstring | number‘100%’icon搜索图标boolean | slottruesearch搜索按钮&#xff0c;默认时为搜索图标string | slotundefinedsearchProps设置搜索按钮的属性&#xf…

【Qt】容器类控件GroupBox

容器类控件GroupBox 使用QGroupBox实现一个带有标题的分组框&#xff0c;可以把其他的控件放在里面里面作为一组&#xff0c;这些内部的控件的父元素也就不是this了。 其目的只是为了让界面看起来更加好看&#xff0c;例如当一个界面比较复杂的时候&#xff0c;包含了很多的控…

APP封装安装配置参考说明

APP封装安装配置参考说明 一, 环境准备 宝塔环境 nginx php5.6 mysql5.6 java-openjdk1.8 apktool 1,安装 nginx,php,mysql自行安装 java-openjdk1.8 安装 推荐使用命令行安装 1.1 yum install java-1.8.0-openjdk1.2 yum install -y java-1.8.0-openjdk-devel1.3 设置…

Unity | 性能标准分析工具图形API简介

目录 一、相关术语 1.物理页 2.PSS内存 3.Reserved Total 二、耗时推荐值 三、内存推荐值 四、分析工具 1.Profiler &#xff08;1&#xff09;Profiler各平台对比 &#xff08;2&#xff09;构建到目标平台 &#xff08;3&#xff09;Frame数量修改 &#xff08;4…

天宝TBCTrimble Business Center中文版本下载安装使用介绍

天宝TBC&#xff1a;测绘之道&#xff0c;尽在其中 引言 昔日杜甫&#xff0c;忧国忧民&#xff0c;今朝我辈&#xff0c;测绘天下。天宝TBC&#xff0c;乃测绘之利器&#xff0c;助我等行走于山川河流之间&#xff0c;绘制天地之图。此文将以杜甫之笔&#xff0c;述说TBC之妙…

【数据结构】栈(stack)

目录 栈的概念 栈的方法 栈的实现 数组实现 push方法 压栈 pop方法 出栈 peek方法 获取栈顶元素 size方法 获取有效元素个数 链表实现 结尾 完整代码 数组实现栈代码 双向链表实现栈代码 栈的概念 栈是一种特殊的线性表&#xff0c;只允许在 固定的一段 进行插入…

kafka发送消息-生产者发送消息的分区策略(消息发送到哪个分区中?是什么策略)

生产者发送消息的分区策略&#xff08;消息发送到哪个分区中&#xff1f;是什么策略&#xff09; 1、默认策略&#xff0c;程序自动计算并指定分区1.1、指定key&#xff0c;不指定分区1.2、不指定key&#xff0c;不指定分区 2、轮询分配策略RoundRobinPartitioner2.1、创建配置…