【文本】词嵌入经典模型:从one-hot到BERT

【文本】词嵌入经典模型:从one-hot到BERT

one-hot编码(独热编码):

  • 根据词表的所有词构建一个向量特征。每一个文段中每个单词有一个词向量(二进制且只有一位为1) — 稀疏、缺乏语义(father&mother;like&love)

word2vec编码:

  • 原则:“一个词被周围的词所代表”
    • 有两种模型:CBOW(Continuous Bag of Words) 上下文单词预测目标单词(完形填空)Skip-Gram 目标单词预测上下文单词(造句),中心词可替换,上下文不变,那就是相似的词
  • 步骤:
    • 随机初始化向量表示,经历无数次训练(如下)
    • 正样本:-(正向传播)将中心词和上下文两个词向量输入神经网络,模型中输出的是“是否为上下文的概率”-(反向传播)概率不符合实际(损失函数大),则更新神经网络模型的参数(根据梯度调整权重),以及两个词的向量表达,使得下次预测更接近于1(学到了中心词的语义)
    • 负样本:使其概率更接近0
  • — 确乏全文信息;无法解决一词多义

Bert模型

  • Bert模型基于transformer架构,加入句向量(解决全文信息),可以处理一词多义
  • 苹果(中心词)的语义信息,由句子内所有上下文的单词有关,整个句子信息都要混入当前单词中(self-attention,用文本中的更多上下词,增加目标此语义,中心词语义=∑所有词*权重,权重由模型训练)
  • — 考虑完形填空(MLM任务),在训练时随机替换句子中一些词为mask。一个单词被mask掉后,根据句子中其他词的语义中混合的信息,反向猜出被mask的词,输出的mask词预测是一个概率分布,表示每个单词被成功预测的概率,目标是向1训练(减少损失函数);没有负样本训练。
  • — 考虑续写(NSP任务),即句子间训练(模型接收一对句子,判断第二个句子是否是第一个句子的下一句),帮助理解句子间逻辑
    • — CLS特殊符号,排入开头位值,但是没有自己语义(所以能够表示整个句子信息—存在争议)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21700.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用vue3框架vue-next-admin导出表格excel(带图片)

想要使用vue3导出表格内容并且图片显示在表格中(如图): 步骤如下: 下载安装插件: 安装命令:npm install js-table2excel 引入插件: import table2excel from js-table2excel 使用插件 …

懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制)

1.合集懒人精灵本地离线卡密验证系统教程(不联网、安全稳定、省钱、永久免费、无任何限制):https://www.bilibili.com/video/BV1M6rdYEEog/ 备注: 1.本地离线卡密采用最安全的非对称加解密技术,设备id采用最安全多重混合加密不可逆技术生成&…

基于Flask的租房信息可视化系统的设计与实现

【Flask】基于Flask的租房信息可视化系统的设计与实现(完整系统源码开发笔记详细部署教程)✅ 目录 一、项目简介二、项目界面展示三、项目视频展示 一、项目简介 随着互联网的快速发展,租房市场日益繁荣,信息量急剧增加&#xff…

JUC并发—8.并发安全集合二

大纲 1.JDK 1.7的HashMap的死循环与数据丢失 2.ConcurrentHashMap的并发安全 3.ConcurrentHashMap的设计介绍 4.ConcurrentHashMap的put操作流程 5.ConcurrentHashMap的Node数组初始化 6.ConcurrentHashMap对Hash冲突的处理 7.ConcurrentHashMap的并发扩容机制 8.Concu…

docker 改了镜像源为阿里云,还是下载失败

我是windows系统,在学习docker,刚开始执行docker run hello-world还是失败,然后改了镜像源为阿里云,还是失败,后来去查资料,除了阿里云还配置了很多其他镜像源,才好使 "registry-mirrors&q…

mysql总结

系列文章目录 暂无 前言 mysql面试题的总结以及部分原理,部分图片为网上资源,如侵权请告知删除。 一、MySQL 执行流程 1.连接器:建立连接,管理连接、校验用户身份; 2.查询缓存:查询语句如果命中查询缓存…

【Linux网络编程】应用层协议HTTP(请求方法,状态码,重定向,cookie,session)

🎁个人主页:我们的五年 🔍系列专栏:Linux网络编程 🌷追光的人,终会万丈光芒 🎉欢迎大家点赞👍评论📝收藏⭐文章 ​ Linux网络编程笔记: https://blog.cs…

城市地质安全专题连载⑦ | 加强国土空间规划管控,规避城市地质安全风险

作者 | 徐海洋 在国土空间规划中,地质调查扮演着先导性和基础性的角色。它如同一把无形的尺子,衡量着每一寸土地的开发潜力与安全边界,不仅为城市规划提供了科学依据,还在规避地质安全风险、优化资源配置方面发挥着关键作用。然而…

内部知识库:安全协作驱动数字化转型新路径

内容概要 在数字化转型进程中,内部知识库作为信息聚合与分发的核心载体,正通过安全协作与智能权限管理重构企业知识治理模式。其核心价值在于将分散的部门数据、经验文档与业务洞察整合至统一平台,形成可追溯、可共享的企业级知识中台&#…

【分布式理论11】分布式协同之分布式事务(一个应用操作多个资源):从刚性事务到柔性事务的演进

文章目录 一. 什么是分布式事务?二. 分布式事务的挑战三. 事务的ACID特性四. CAP理论与BASE理论1. CAP理论1.1. 三大特性1.2. 三者不能兼得 2. BASE理论 五. 分布式事务解决方案1. 两阶段提交(2PC)2. TCC(Try-Confirm-Cancel&…

ARM Linux平台下 OpenCV Camera 实验

一、硬件原理 1. OV2640 1.1 基本功能 OV2640 是一款低功耗、高性能的图像传感器,支持以下功能: 最高分辨率:200 万像素(1600x1200)。 输出格式:JPEG、YUV、RGB。 内置图像处理功能:自动曝…

Modbus协议基础

文章目录 1、Modbus协议基础知识1.1、Modbus存储范围1.2、Modbus协议功能码说明1.3、Modbus协议分类及测试 2、ModbusRTU通信报文分析2.1、modbusRTU通信格式 3、Modbus通信库开发4、通信库测试 1、Modbus协议基础知识 1.1、Modbus存储范围 modbus规定,每个存储区…

电脑想安装 Windows 11 需要开启 TPM 2.0 怎么办?

尽管 TPM 2.0 已经内置在许多新电脑中,但很多人并不知道如何激活这一功能,甚至完全忽略了它的存在。其实,只需简单的几步操作,你就能开启这项强大的安全特性,为你的数字生活增添一层坚固的防护屏障。无论你是普通用户还…

node 使用 Redis 缓存

缓存是什么? 高并发下,一个项目最先出问题的,并不是程序本身,而是数据库最先承受不住。 在数据库上我们可以做很多优化,例如优化 SQL 语句,优化索引,如果数据量大了,还可以分库、分表…

解决双系统开机显示gnu grub version 2.06 Minimal BASH Like Line Editing is Supported

找了好多教程都没有用,终于解决了!!我是因为ubuntu分区的时候出问题了 问题描述: 双系统装好,隔天开机找不到引导项,黑屏显示下列 因为我用的D盘划分出来的部分空闲空间,而不是全部&#xff0c…

NLP-RNN-LSTM浅析

目录 双向 LSTM(Bi - LSTM) 双向 LSTM(Bi - LSTM)原理深入讲解 代码示例(基于 PyTorch) LSTM 应用到双向 RNN 中 代码示例(基于 PyTorch) 双向 LSTM - CRF(Conditio…

自动化之ansible(二)

一、ansible中playbook(剧本) 官方文档: Ansible playbooks — Ansible Community Documentation 1、playbook的基本结构 一个基本的playbook由以下几个主要部分组成 hosts: 定义要执行任务的主机组或主机。 become: 是否需要使用超级用户…

uni-app小程序开发 基础知识2

目标&#xff1a; 构建一个文章发表平台。 我们先来写一个静态框架。 以下是 首页初代码文章列表页代码&#xff1a; <template><view class"content"><!-- 轮播图 --><swiper class"swiper-container" autoplay"true"…

kafka-集群扩容

一. 前言&#xff1a; 随着业务增加&#xff0c;我们会面临这kafka当性能问题&#xff0c;需要进行集群扩容&#xff0c;增加broker节点。 二. 扩容说明: 增加新服务到kafka集群是很容易的(参考&#xff1a; kafka-部署安装-CSDN博客 )&#xff0c;只要为新服务分配一个独一无…

uni-app开发app时 使用uni.chooseLocation遇到的问题

问题一&#xff1a;不显示 问题二&#xff1a;选择地址列表一直在加载中 因为 uni-app 接口文档 中已经说明&#xff0c;使用腾讯的话需要开启云服务&#xff0c;具体可看官网&#xff0c;这就是为什么使用时直接不显示的原因&#xff0c;所以我使用的高德&#xff0c;但又出现…