Word2vec Skip-Gram 模型

图例

在这里插入图片描述

Skip-gram 模型,假设句子中的每个词都决定了相邻词的选取,所以你可以看到Skip-gram模型的输入是 W t W_{t} Wt, 预测的输出是 W t W_t Wt 周边的词

也是说Skip-gram的目标是:给定一个中心词 W t W_t Wt, 预测其上下词 W t + j W_{t+j} Wt+j(j 在窗口大小c内)

例如,句子’I love machine learing’ 中,若中心词为"machine", 则上下文词为"love" 和 “learing”

Skip Gram 模型结构

在这里插入图片描述

Skip-Gram 模型的目标是通过中心词预测其上下文。其结构分为三个部分: 输入层 -> 隐藏层 -> 输出层

权重矩阵

权重矩阵的定义

在Skip-Gram 模型中,存在两个权重矩阵。输入层到隐藏层的矩阵W和隐藏层到输出层的矩阵W’. 这个两个矩阵分别对应词向量的输入和输出表示

权重矩阵初始化的方法

在 Word2Vec Skip-Gram 模型中, 权重矩阵的初始化是模型训练的起点

目的是为每个词分配一个初始向量表示。常见的初始化方法包括均匀分布初始化正态分布初始化

均匀分布初始化

均匀分布初始化从 固定区间 [-a, a] 内随机采样数值,通常选择较小的范围(如[-0.1,0.1]), 以避免初始值过大导致梯度爆炸,所有值出现的概率相等

示例设定

  • 词汇表: ["猫", "狗", "抓"],词向量纬度 d = 2, 词汇表大小 V = 3
  • 均匀分布区间: [-0.1, 0.1]

初始化步骤

  1. 输入矩阵W
  • 设置区间为[-0.1,0.1], 词向量纬度 d = 2, 词汇表大小 V = 3

  • 初始化输入矩阵 W ∈ R 3 ∗ 2 W \in R^{3 * 2} WR32
    在这里插入图片描述

  • 每个元素均从[-0.1, 0.1] 中独立随机采样

  1. 输出矩阵W’
    每个输出向量同样从[-0.1, 0.1] 中采样,生成一个 2 * 3 的矩阵
    在这里插入图片描述

物理意义

  • 输入向量和输出向量初始时均为随机小数值,无明确语义
  • 例如: "猫"的输入向量为[0.05, -0.03], "狗"的输出向量为[-0.04, 0.08]

均匀分布初始化的特点

  • 优点: 简单易实现,避免初始值过大或过小导致梯度问题
  • 缺点: 在有限区间内分布均匀,可能缺乏对数据分布的适应性
正态分布初始化

正态分布初始化从 均值0、标准差为 σ 的正态分布中采样 ( μ \mu μ = 0, σ \sigma σ = 0.01),使初始值集中在0附近

示例设定:

  • 词汇表同上(["猫", "狗", "抓"]), d = 2, V = 3
  • 正态分布参数: μ \mu μ = 0, σ \sigma σ = 0.01

示例:

  • 设定 μ \mu μ = 0, σ \sigma σ = 0.01。 词向量纬度 d = 2, 词汇表大小 V = 3

  • 初始化输入矩阵 W ∈ R 3 ∗ 2 W \in R^{3 * 2} WR32
    在这里插入图片描述

  • 每个元素均从 η \eta η (0,0.01) 中独立采样

初始化后的前向传播示例

以均匀分布初始化后的输入矩阵W和输出W‘为例,假设中心词为"猫"(对应 one-hot 向量 x = [ 1 , 0 , 0 ] T [1,0,0]^{T} [1,0,0]T):

  1. 输入层 -> 隐藏层:
    在这里插入图片描述

  2. 隐藏层 -> 输出层:
    计算每个词的得分 u j = h T u j u_{j}=h^{T}u_{j} uj=hTuj:
    在这里插入图片描述

通过Softmax 计算概率
在这里插入图片描述

目标函数

假设上下文词 “抓”, 对应的one-hot 标签为: [0,1,0]

交叉嫡损失函数L为:
L = − ( 0 ∗ log ⁡ ( 0.33 ) + 1 ∗ log ⁡ ( 0.33 ) + 0 ∗ log ⁡ ( 0.33 ) ) -(0 * \log(0.33) + 1 * \log(0.33) + 0 * \log(0.33)) (0log(0.33)+1log(0.33)+0log(0.33))

参考资料

  • Word2Vec原理与公式详细推导

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/16120.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【R语言】相关系数

一、cor()函数 cor()函数是R语言中用于计算相关系数的函数,相关系数用于衡量两个变量之间的线性关系强度和方向。 常见的相关系数有皮尔逊相关系数(Pearson correlation coefficient)、斯皮尔曼秩相关系数(Spearmans rank corre…

网络工程师 (32)TRUNK

一、定义 TRUNK,也称为端口汇聚、链路汇聚或多链路汇聚,是一种网络技术,其本质是将多个以太网端口绑定在一起作为一个逻辑链路来使用。通过TRUNK技术,用户在使用这个逻辑链路时,就好像是在使用一条独立的物理链路一样&…

“可通过HTTP获取远端WWW服务信息”漏洞修复

环境说明:①操作系统:windows server;②nginx:1.27.1。 1.漏洞说明 “可通过HTTP获取远端WWW服务信息”。 修复前,在“响应标头”能看到Server信息,如下图所示: 修复后,“响应标头…

编译和链接【三】

文章目录 编译和链接【三】前言系列文章入口编译过程词法分析语法分析语义分析生成中间代码汇编链接 编译和链接【三】 前言 在我大一的时候, 我使用VC6.0对C语言程序进行编译链接和运行 , 然后我接触了VS, Qt creator等众多IDE&#xff0c…

波导阵列天线学习笔记8 高增益、低轴比的3D打印Ka波段圆极化单脉冲天线阵列

摘要: 本文中, 一种3D打印的16x16圆极化单脉冲天线阵列在Ka波段研究,有着高增益和低轴比的特点。此单脉冲天线阵列有着四个低剖面的左旋圆极化子阵列和一个顺序旋转的和差网络。这四个子阵列正交连接着和差网络的输出,保证了传统2…

高通android WIFI debug

参考高通文档:80-76240-16_REV_AA_Wi-Fi_Debug_Techniques 大纲 一、 WLAN Debug Logs –logcat ■ Logcat log logcat is a command-line tool that dumps the log of system messages, ■ Including stack traces when the device throws an error. ■ Need t…

Pytest自动化测试框架总结

1、pytest简介 pytest是Python的一种单元测试框架,与python自带的unittest测试框架类似,但是比unittest框架使用起来更简洁,效率更高。 执行测试过程中可以将某些测试跳过,或者对某些预期失败的case标记成失败能够支持简单的单元…

交叉编译工具链下载和使用

初级代码游戏的专栏介绍与文章目录-CSDN博客 我的github:codetoys,所有代码都将会位于ctfc库中。已经放入库中我会指出在库中的位置。 这些代码大部分以Linux为目标但部分代码是纯C的,可以在任何平台上使用。 源码指引:github源…

【SVN基础】

软件:ToritoiseSVN 代码版本回退:回退到上一个版本 问题:SVN版本已经提交了版本1和版本2,现在发现不需要版本2的内容,需要回退到版本1然后继续开发。 如图SVN版本已经提交到了107版本,那么本地仓库也已经…

作业:zuoye

1.闹钟&#xff08;错的&#xff09; #include "widget.h" #include "ui_widget.h" #include <QMessageBox>Widget::Widget(QWidget *parent): QWidget(parent), ui(new Ui::Widget) {ui->setupUi(this);// 初始化定时器objTimer new QTimer(th…

一种非完全图下的TSP求解算法

序 旅行商问题(Traveling Salesman Problem,简称TSP)是组合优化中的一个经典问题,就是给定一组城市和城市之间的距离,找到一条最短路径使得每个城市只被访问一次后返回到起点。 一些传统的解法都是基于完全图的,我在网上也很少找到非完全图的解法,非完全图应该在实际应…

2025.2.11——一、[极客大挑战 2019]PHP wakeup绕过|备份文件|代码审计

题目来源&#xff1a;BUUCTF [极客大挑战 2019]PHP 目录 一、打开靶机&#xff0c;整理信息 二、解题思路 step 1&#xff1a;目录扫描、爆破 step 2&#xff1a;代码审计 1.index.php 2.class.php 3.flag.php step 3&#xff1a;绕过__wakeup重置 ​编辑 三、小结…

Word成功接入DeepSeek详细步骤

原理 原理是利用Word的VBA宏&#xff0c;写代码接入API。无需下载额外插件。 步骤一、注册硅基流动 硅基流动统一登录 注册这个是为了有一个api调用的api_key&#xff0c;有一些免费的额度可以使用。大概就是这个公司提供token&#xff0c;我们使用这个公司的模型调用deepsee…

STM32_USART通用同步/异步收发器

目录 背景 程序 STM32浮空输入的概念 1.基本概念 2. STM32浮空输入的特点 3. STM32浮空输入的应用场景 STM32推挽输出详解 1. 基本概念 2. 工作原理 3. 应用场景 使能外设时钟 TXE 和 TC的区别 USART_IT_TXE USART_IT_TC 使能串口外设 中断处理函数 背景 单片…

Kafka的消费消息是如何传递的?

大家好&#xff0c;我是锋哥。今天分享关于【Kafka的消费消息是如何传递的&#xff1f;】面试题。希望对大家有帮助&#xff1b; Kafka的消费消息是如何传递的&#xff1f; 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 Kafka 的消息传递机制是基于 发布-订阅 模型…

活动预告 | Power Hour: Copilot 引领商业应用的未来

课程介绍 智能化时代&#xff0c;商业应用如何实现突破&#xff1f;微软全球副总裁 Charles Lamanna 将为您深度解析&#xff0c;剖析其中关键因素。 在本次线上研讨会中&#xff0c;Charles Lamanna 将分享他在增强商业运营方面的独到见解与实战策略&#xff0c;深度解读商业…

IPD项目管理是什么?

IPD项目管理&#xff0c;即整合项目交付管理&#xff0c;是一种创新的管理方式、强调团队协作、优化设计和施工过程的方法。这种管理模式的核心是整合所有项目参与者的专业技能和知识&#xff0c;从项目初始阶段就开始共同合作&#xff0c;以实现项目目标。它特别强调所有参与者…

支付宝安全发全套解决方案

产品价值 ● 通过支付宝的资金能力&#xff0c;让服务商机构通过信息流驱动资金流&#xff0c;在不碰触客户企业资金的同时&#xff0c;为客户企业完成转账。账目清晰&#xff0c;无合规和资质风险。 ● 为服务商提供全链路的资金流动明细信息&#xff0c;服务商可以将这些信息…

关于FANUC机器人示教器型号的说明

关于FANUC机器人示教器型号的说明 如下图所示&#xff0c; 示教器的型号为&#xff1a;A05B-2255-C102#ESW&#xff0c; 如果需要对示教器进行更换或维修测试&#xff0c;只需保证前面8位的型号保持一致即可&#xff0c; 例如下图中的型号&#xff0c; 只需保证A05B-2255-x…

计算机毕业设计SpringBoot校园二手交易小程序 校园二手交易平台(websocket消息推送+云存储+双端+数据统计)(源码+文档+运行视频+讲解视频)

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…