【王树森】BERT:预训练Transformer模型(个人向笔记)

前言

  • BERT:Bidirectional Encoder Representations from Transformer
  • BERT是用来预训练Transformer模型的encoder的
  • 本节课只讲述主要思想
  • BERT用两个主要思想来训练Transformer的encoder网络:①随机遮挡单词,让encoder根据上下文来预测被遮挡的单词。②把两句话放在一起,让encoder判断是不是原文相邻的两句话

Randomly mask a word

  • 随机遮挡一个单词,让神经网络来预测这个单词是什么:
    在这里插入图片描述
  • 我们把cat遮住后如下图所示:我们把原来的 x 2 x_2 x2 变为了 x M x_M xM,由前几节课transformer的原理可以知道:最后的输出不仅仅取决于 x 2 x_2 x2 x M x_M xM,而是包含整句话的信息,最后我们把 u M u_M uM 输入到 Softmax 后,期望其中的 cat 的概率是最大的
    在这里插入图片描述
  • 我们把被遮住的单词 cat 的one-hot向量称为 e e e p p p 为上面 Softmax 输出的概率分布向量,那么我们要让 p p p 尽可能地接近 e e e,于是我们可以把它丢进交叉熵损失函数里面进行反向传播,梯度下降:
    在这里插入图片描述
  • BERT 不需要人为打标,可以自动遮住单词然后生成标签。因此可以拥有很多的数据,可以训练很大的模型

Predict the Next Sentence

  • 给定随机的两句话,问这两句在文中是否是相邻的
    在这里插入图片描述
  • 其中输入时两句话,其中 [CLS] 时分类的标号,[SEP] 是分句的标号在这里插入图片描述
  • 该方法会在原来的文本随机选取句子,其中一半是相邻的,一半不是相邻的
    在这里插入图片描述
    在这里插入图片描述
  • CLS符号在经过 Embedding 和 Transformer 的 Encoder 后会生成一个向量 c c c,其由一个二分类器来计算值,虽然由 attention 机制我们可以知道: c c c 还依赖于文中的其他信息,这样就能学到两句话的信息,这样我们就可以让 c c c 和标签做交叉熵损失,然后就能反向传播和梯度下降来训练。相邻两句话通常含有关联,这样训练就能让 Embedding 和 Encoder 学到这种关联信息。
    在这里插入图片描述

Combining the two methods

  • 把上面两个任务结合起来:这样就有多个标签
    在这里插入图片描述
    在这里插入图片描述
  • 假设我们有两个单词被遮住了,那么就有三个任务,三个损失函数,那么最后的损失函数就是三个损失函数之和
    在这里插入图片描述
  • BERT 的优点在于不用人工标注数据,因为人工标注数据是非常昂贵的。而 BERT 可以自动生成标签,这是一个非常好的性质
  • 缺点在于 BERT 的计算代价很大:
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/414145.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Fine-Grained Egocentric Hand-Object(中文翻译)

精细化自我中心手-物体分割: 数据集、模型(model)与应用 灵芝张1, 盛昊周1, 西蒙斯滕特 $ {}^{2} $, 和健博石 $ {}^{1} $ 摘要。 自我中心视频提供了高保真度建模人类行为的细粒度信息。手和交互对象是理解观众行为和意图的一个关键方面。…

掌握 JavaScript 解构赋值的指南

JavaScript 的解构赋值是一种从数组 or 对象中提取值并将其赋给变量的语法。这种语法让我们从复杂的数据结构中提取数据变得简洁和易读。解构赋值可以用在数组、对象以及嵌套结构中。 解构是:使用 ES6 的一种语法规则,将一个对象或数组的某个属性提取到…

JavaSE-递归法解决二分查找、快速排序

704. 二分查找https://leetcode.cn/problems/binary-search/ package demo;public class BinarySearch {public static void main(String[] args) {BinarySearch brnew BinarySearch();System.out.println(br.search(new int[]{1, 2, 3, 4, 5, 6, 7, 8, 9}, 8));}public int s…

[Tools: LoRA] Diffusers中Stable Diffusion的实现

实现底层原理 Diffusers中的Attention操作实现在AttnProcessor类(diffusers.models.attention_processor.py),里面定义了单次Attention操作。添加LoRA,本质上是用LoRAAttnProcessor类替换AttnProcessor类。LoRAAttnProcessor中新…

浅谈如何入门微信小程序?

一. 何为微信小程序? 1. 微信小程序是一种全新的连接用户与服务的方式 2. 它可以在微信内被便捷地获取和传播,同时具有出色的使用体验 二. 如何开发小程序 1. 开发小程序的第一步: 你需要拥有一个小程序帐号,通过这个帐号你就…

vue如何引入element-ui

2.x用element-ui 3.x用element-plus https://blog.csdn.net/weixin_41207479/article/details/127066333 引入element-ui的三种方式

opencv之形态学

文章目录 1. 什么是形态学2. 形态学操作2.1 腐蚀2.2 膨胀2.3 通用形态学函数2.4 开运算2.5 闭运算2.6 形态学梯度运算2.7 礼帽运算2.8 黑帽运算 1. 什么是形态学 在图像处理领域,形态学是一种基于形状的图像分析技术,用于提取和处理图像的形态特征。这包…

前端与后端的身份认证

这里写目录标题 前端与后端的身份认证Web开发模式服务端渲染的Web开发模式前后端分离的Web开发模式根据场景选择开发模式 身份认证为什么需要身份认证不同开发模式下的身份认证 Session认证机制HTTP协议下的无状态性如何突破HTTP无状态的限制CookieCookie的几大特性&#xff1a…

Cadence高速板设计技巧(全志H3)[四]

HDMI常用的ESD器件: 可以看到一个器件可以做两路差分线的TVS防护: 按W键移动会把导线直接移走,这样显然是不行的: cadence中导线调节用的是快捷键e: 因此,虽然在某些场合下 eMMC 被称为 ROM,但…

Unity(2022.3.41LTS) - 地形

目录 一、地形的创建 二.页面详解 1.创建相邻的 Terrain 瓦片。 2.雕刻和绘制地形。 3.添加树。 4.添加细节,如草地、花朵和岩石。 5.更改所选 Terrain 的常规设置 三、地形编辑工具 四、地形的属性设置 五、地形的优化 六、地形的应用场景 一、地形的创…

C++八股文之语言基础篇

🤖个人主页:晚风相伴-CSDN博客 思维导图链接:C语言基础 持续更新中…… 💖如果觉得内容对你有帮助的话,还请给博主一键三连(点赞💜、收藏🧡、关注💚)吧 &…

vscode c++和cuda开发环境配置

文章目录 1. vscode 插件安装2. 开发环境配置2.1 bear 安装2.2 代码的编译2.2.1 编写Makefile文件2.2.2 bear make和make命令2.3 debug环境配置2.1 函数跳转设置2.1.1 ` c_cpp_properties.json` 设置2.1.2 settings.json设置2.2 调试环境配置2.2.1 tasks.json2.2.2 launch.json…

shell编程之条件语句(if)

目录 一、条件测试 1.1文件测试和整数测试 1.1.1 test命令 1.1.2 文件测试 1.2.3 整数值比较 1.2 字符串测试与逻辑测试 1.2.1 字符串比较 1.2.2 逻辑测试 二、if语句 2.1 if单分支语句 2.2 if双分支语句 2.3 if多分支语句 三、case分支语句 一、条件测试 1.1文件…

微信小程序背景图无法显示

文章目录 不知道有没有人跟我一样,刚接触微信小程序,在写代码的时候,背景图莫名奇妙不显示。 网上有很多解决方法,比如转 base64 ,网络图片地址等等,但我觉得都太麻烦了,这里直接给出我的解决方…

新生在线分班查询,用这个小程序制作仅需一分钟!

今天许多学校已陆续开学,老师们又开始忙碌起来。他们需要将新生的分班信息逐一通知给每位家长,这不仅是一项繁琐的工作,而且效率也不高。传统的方法是通过电话、短信或邮件一一通知,这不仅耗时耗力,还容易出现信息传递…

《大道平渊》· 拾玖 —— 做产品的四大境界

《大道平渊》 【顶级】虚空造物, 无中生有。 【上等】带脑子抄, 模仿, 改进, 超越。 【中等】无脑抄, 一模一样, 疯狂内卷。 【下等】抄都能抄错, 蠢货。 // 题外话:呵呵,很多人照着抄都能抄错,给了模板不会用,项目拆解出来嚼…

React中实现antd自定义图标,鼠标悬浮变色

借助 antd 的 tooltip 组件来实现 hover 时变色的效果 1.新建组件 自定义图标一般在iconfont上面获取,复制下来的svg代码,切记要删除 fill 属性后添加到组件中 import { Tooltip } from "antd"; import React from "react";const …

springboot篇

文章目录 1.题目问答2.配置详情2.1配置文件2.2多环境配置2.3自定义参数2.4命令行参数2.5加载顺序 3.Starter POMs4.监控与管理—actuator4.1. 应用配置类4.1.1./autoconfg4.1.2. /beans4.1.3. /configprops4.1.4 /env4.1.5./mappings4.1.6./info 4.2. 度量指标类4.2.1. /metric…

oceanbase 常用视图查询记录

测试环境:1-1-1 OceanBase 企业版3.2.4.4 查看租户的 Context 和 Modudle 内存 SELECT tenant_id, svr_ip, ctx_id, ctx_name, mod_name, count, round(HOLD / 1024 / 1024, 2) hold_mb, round(used / 1024 / 1024, 2) used_mb FROM oceanbase.__all_virtual_memory…

AI问答:.NET核心组成概要、程序运行步骤和查询SDK版本的方法

.NET三大组成 ①Runtime (运行时): CLR:公共语言运行时,执行程序、内存管理、垃圾回收(GC)、安全性检查、异常处理,是跨平台的关键要素。 JIT:实时编译器,将中间语言…