PyTorch 中的距离函数深度解析:掌握向量间的距离和相似度计算

目录

Pytorch中Distance functions详解

pairwise_distance

用途

用法

参数

数学理论公式

示例代码

cosine_similarity

用途

用法

参数

数学理论

示例代码 

输出结果

pdist

用途

用法

参数

数学理论

示例代码

总结 


Pytorch中Distance functions详解

pairwise_distance

torch.nn.functional.pairwise_distance 是 PyTorch 中的一个函数,用于计算两组向量之间的成对距离。这个函数广泛应用于机器学习和深度学习中,尤其是在处理距离相关的任务,如聚类、相似度计算等。

用途

  • 计算两组向量间的成对距离,常用于度量向量间的相似性或差异性。
  • 用于机器学习中的距离度量,如k-最近邻 (k-NN)、聚类等。

用法

torch.nn.functional.pairwise_distance(x1, x2, p=2.0, eps=1e-6, keepdim=False)

 

  • x1, x2: 输入的两组向量,必须有相同的维度。
  • p: 距离计算的幂指数,默认为2,即欧几里得距离。
  • eps: 一个小的数值,用于保证数值稳定性。
  • keepdim: 是否保持输出的维度。

参数

  • x1: 第一组向量的张量。
  • x2: 第二组向量的张量。
  • p: 距离度量的幂指数,默认为2(欧几里得距离)。
  • eps: 避免除零错误的小数,默认为1e-6。
  • keepdim: 在输出中保持原始输入的维度结构。

数学理论公式

对于向量 x1_{i}​ 和 x2_{i}pairwise_distance 计算的是 p 范数下的距离:

d(x1_{i},x2_{i})=(\sum_{j}|x1_{ij}-x2_{ij}|^{p}+eps)^{\frac{1}{p}}

 其中,x1_{ij} 和 x2_{ij} 分别是x1_{i}x1_{i}x2_{i} ,的第j个元素。

示例代码

import torch
import torch.nn.functional as F# 定义两个向量组
x1 = torch.tensor([[1, 2, 3], [4, 5, 6]], dtype=torch.float32)
x2 = torch.tensor([[1, 3, 5], [2, 4, 6]], dtype=torch.float32)# 计算成对距离
dist = F.pairwise_distance(x1, x2, p=2)# 输出结果  tensor([2.2361, 2.4495]) 这里,输出的是每一对向量之间的欧几里得距离。print(dist)

cosine_similarity

torch.nn.functional.cosine_similarity 是 PyTorch 中的一个函数,用于计算两个张量之间的余弦相似度。这个函数在机器学习和深度学习领域中非常有用,尤其是在处理文本、图像或任何类型的特征向量时,用于度量它们之间的相似性。

用途

  • 计算两个向量或向量组之间的余弦相似度。
  • 广泛应用于自然语言处理、计算机视觉、推荐系统等领域。

用法

torch.nn.functional.cosine_similarity(x1, x2, dim=1, eps=1e-8)
  • x1, x2: 输入的两个张量,必须能够广播到相同的形状。
  • dim: 计算相似度的维度。
  • eps: 避免除零错误的小数值。

参数

  • x1 (Tensor): 第一个输入张量。
  • x2 (Tensor): 第二个输入张量。
  • dim (int, 可选): 计算相似度的维度,默认为1。
  • eps (float, 可选): 用于避免除零的小数值,默认为1e-8。

数学理论

余弦相似度的计算公式为:

similarity = \frac{x1}{max(||x1||_{2},\varepsilon )\times max(||x2||_{2},\varepsilon )}

 

  • x1⋅x2 表示两个张量的点积。
  • ||x1||_{2} 和 ||x2||_{2}​ 分别是 x1 和 x2 的2范数。
  • ε 是一个小的数值,用来保证除数不为零。

示例代码 

import torch
import torch.nn.functional as F# 随机生成两个张量
input1 = torch.randn(100, 128)
input2 = torch.randn(100, 128)# 计算余弦相似度
output = F.cosine_similarity(input1, input2)# 打印结果
print(output)

输出结果

此代码将计算 input1input2 每行之间的余弦相似度,并输出一个长度为100的张量,每个元素对应于两个输入张量相应行的余弦相似度值。由于输入是随机生成的,输出也会随机变化。

pdist

torch.nn.functional.pdist 是 PyTorch 中的一个函数,它用于计算输入张量中每对行向量之间的 p 范数距离。此函数在统计分析、机器学习和数据科学中非常有用,尤其是在涉及距离度量和空间关系的场景中。

用途

  • 计算给定张量中每对行向量之间的距离。
  • 应用于聚类分析、多维缩放和其他需要距离度量的算法。

用法

torch.nn.functional.pdist(input, p=2)
  • input: 输入张量,其形状为 N×M,其中 N 是行数,M 是列数(特征数)。
  • p: 用于计算的 p 范数,默认为 2,即欧几里得距离。

参数

  • input (Tensor): 形状为 N×M 的输入张量。
  • p (float): p 范数的值,用于计算向量对之间的距离。可取值为 0 到 ∞ 之间的任何实数。

数学理论

对于输入张量的每一对行向量 x_{i}x_{j}pdist 计算它们之间的 p 范数距离:​d(x_{i},x_{j})=(\sum_{k}|x_{ik}-x_{jk}|^{p})^{\frac{1}{p}} 其中,x_{ik}​ 和 x_{jk} 分别是 x_{i} 和x_{j}的第 k 个元素。

示例代码

import torch
import torch.nn.functional as F# 定义输入张量
input_tensor = torch.tensor([[1, 2, 3], [4, 5, 6], [7, 8, 9]], dtype=torch.float32)# 计算 p 范数距离
distances = F.pdist(input_tensor, p=2)# 输出结果 tensor([5.1962, 10.3923, 5.1962]) 这里,输出的是输入张量中每一对行向量之间的欧几里得距离。print(distances)

总结 

本文解析了 PyTorch 中三个关键的距离函数:pairwise_distancecosine_similaritypdist。这些函数在深度学习和机器学习中非常重要,用于计算向量之间的距离和相似度,从而支持各种算法如聚类、k-最近邻、特征相似度度量等。每个函数都有其特定的应用场景和数学原理。pairwise_distance 计算两组向量间的成对欧几里得距离,cosine_similarity 计算两个张量间的余弦相似度,而 pdist 则计算一个张量内各行向量间的 p 范数距离。通过这些函数,我们能有效地分析和处理数据,特别是在高维空间中。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/243310.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Git学习笔记(第1章):Git概述

目录 1.1 版本控制 1.1.1 何为版本控制 1.1.2 为什么需要版本控制 1.1.3 版本控制工具 1.2 发展历史 1.3 工作机制 1.4 代码托管中心(远程库) Git是一个免费的、开源的分布式版本控制系统,可以快速高效地处理从小型到大型的各种项目。…

【UEFI基础】EDK网络框架(UDP4)

UDP4 UDP4协议说明 UDP的全称是User Datagram Protocol,它不提供复杂的控制机制,仅利用IP提供面向无连接的通信服务。它将上层应用程序发来的数据在收到的那一刻,立即按照原样发送到网络。 UDP报文格式: 各个参数说明如下&…

AD导出BOM表 导出PDF

1.Simple BOM: 这种模式下,最好在pcb界面,这样的导出的文件名字是工程名字,要是在原理图界面导出,会以原理图的名字命名表格。 直接在菜单栏 报告->Simple BOM 即可导出物料清单,默认导出 comment pattern qu…

【Java】学习一门开发语言,从TA的Hello World开始

欢迎来到《小5讲堂》 大家好,我是全栈小5。 这是《Java》序列文章,每篇文章将以博主理解的角度展开讲解, 特别是针对知识点的概念进行叙说,大部分文章将会对这些概念进行实际例子验证,以此达到加深对知识点的理解和掌握…

【Redis】非关系型数据库之Redis的主从复制、哨兵和集群高可用

目录 一、主从复制、哨兵、集群的区别 二、主从复制 2.1主从复制的作用 2.2主从复制的原理 2.3主从复制的实操 步骤一:环境准备 步骤二:安装Redis以及配置文件修改 Redis的主从配置文件都一样 步骤四:验证主从复制 三、哨兵 3.1哨兵…

NODE介绍和环境安装

浏览器是JS的前端运行环境 Node.js是JS的后端运行环境 Node.js中无法调用DOM和BOM等浏览器内置API 基于Express框架,快速构建web应用 基于Electron框架,构建跨平台桌面应用 基于restify框架快速构建API接口项目 读写数据库 下载Node.js环境 网址&…

【分布式技术】注册中心zookeeper

目录 一、ZooKeeper是什么 二、ZooKeeper的工作机制 三、ZooKeeper特点 四、ZooKeeper数据结构 五、ZooKeeper应用场景 ●统一命名服务 ●统一配置管理 ●统一集群管理 ●服务器动态上下线 ●软负载均衡 六、ZooKeeper的选举机制 七、实操部署ZooKeeper集群 步骤一…

线性代数:矩阵运算(加减、数乘、乘法、幂、除、转置)

目录 加减 数乘 矩阵与矩阵相乘 矩阵的幂 矩阵转置 方阵的行列式 方阵的行列式,证明:|AB| |A| |B| 加减 数乘 矩阵与矩阵相乘 矩阵的幂 矩阵转置 方阵的行列式 方阵的行列式,证明:|AB| |A| |B|

续签KES证书

MiniO KES(密钥加密服务)是 MinIO 开发的一项服务,旨在弥合在 Kubernetes 中运行的应用程序与集中式密钥管理服务 (KMS) 之间的差距。中央 KMS 服务器包含所有状态信息,而 KES 在需要执行与获取新密钥或更新…

Unity 工厂方法模式(实例详解)

文章目录 在Unity中,工厂方法模式是一种创建对象的常用设计模式,它提供了一个接口用于创建对象,而具体的产品类是由子类决定的。这样可以将对象的创建过程与使用过程解耦,使得代码更加灵活和可扩展。 工厂模式的主要优点如下&…

Unity中实现捏脸系统

前言 目前市面上常见的捏脸一般是基于BlendShapes和控制骨骼点坐标两种方案实现的。后者能够控制的精细程度更高,同时使用BlendShapes来控制表情。 控制骨骼点坐标 比如找到控制鼻子的骨骼节点修改localScale缩放,调节鼻子大小。 BlendShapes控制表…

gin中间件篇

1. 全局中间件 所有请求都经过此中间件 package mainimport ("fmt""time""github.com/gin-gonic/gin" )// 定义中间 func MiddleWare() gin.HandlerFunc {return func(c *gin.Context) {t : time.Now()fmt.Println("中间件开始执行了&quo…

OceanBase集群扩缩容

​ OceanBase 数据库采用 Shared-Nothing 架构,各个节点之间完全对等,每个节点都有自己的 SQL 引擎、存储引擎、事务引擎,天然支持多租户,租户间资源、数据隔离,集群运行的最小资源单元是Unit,每个租户在每…

常用设计模式(工厂方法,抽象工厂,责任链,装饰器模式)

前言 有关设计模式的其他常用模式请参考 单例模式的实现 常见的设计模式(模板与方法,观察者模式,策略模式) 工程方法 定义 定义一个用于创建对象的接口,让子类决定实例化哪一个类。Factory Method使得一个类的实例化延迟到子类。 ——《设…

Unity -简单键鼠事件和虚拟轴

简单键鼠事件 — “Test_03” KeyTest 键鼠事件每帧都要监听,要放在Update()中处理 public class KeyTest : MonoBehaviour {// Start is called before the first frame updatevoid Start(){}// Update is called once per framevoid Update(){// 【鼠标点击事件…

C++ :命名空间域

目录 冲突与命名: 举个例子: 全局与局部: 域作用限定符: 命名空间域: 冲突与命名: 在C语言中,我们通常会使用stdlib.h 而stdlib.h 本质上是一个函数的库,在程序中使用的大多数…

java面试——juc篇

目录 一、线程基础 1、进程与线程的区别?(⭐⭐⭐) 2、并行和并发的区别(⭐) 3、创建线程的方式有哪些?(⭐⭐⭐⭐) runnable和Callable的区别: 线程中的run()和 star…

自然语言处理研究的内容

一.基础技术 1.1 词法分析 词法分析(Lexical Analysis),也称为词法扫描或扫描器,是自然语言处理(NLP)中的基础步骤之一,用于将输入的文本分割成词法单元(Token)。词法单…

条件风险价值CVaR内容介绍(MATLAB例程)

在对微电网优化调度过程中,由于新能源机组出力和负荷的不确定性,若采用确定性的优化调度方案会存在一定的风险。当风电和光伏输出功率的实际值低于预测值时,需要增加可控机组出力或切除部分负荷;反之,若风电和光伏输出…

php array_diff 比较两个数组bug避坑 深入了解

今天实用array_diff出现的异常问题,预想的结果应该是返回 "integral_initiate">"0",实际没有 先看测试代码: $a ["user_name">"测","see_num">0,"integral_initiate&quo…