自然语言NLP学习

2-7 门控循环单元(GRU)_哔哩哔哩_bilibili

GRU  LSTM

双向RNN

CNN 卷积神经网络

输入层  转化为向量表示

dropout

ppl

标量

在物理学和数学中,标量(Scalar)是一个只有大小、没有方向的量。它只用一个数值就可以完全描述,且满足交换律。例如,质量、温度、时间、体积、密度、功、能量等都是标量。

在向量代数中,标量与向量是相对的概念,标量可以与向量相乘,从而改变向量的长度但不改变其方向。例如,在三维空间中,如果一个向量的长度为3,一个标量为2,那么这个标量乘以向量的结果将得到一个长度为6,方向不变的新向量。

注意力分数

隐向量

隐向量(Latent Vector)是机器学习和深度学习中一个重要的概念,特别是在自然语言处理、推荐系统、图像识别等领域。隐向量是用来表示复杂数据的一种低维实数向量,它通过训练学习到的,并试图捕捉原始高维数据中的潜在结构和语义信息。

在推荐系统中:

  • 隐向量通常用来表示用户和物品(如电影、音乐等),每个用户和每件物品都被映射到一个固定维度的向量空间中。
  • 例如,在因子分解机(FM,Factorization Machines)模型中,各个特征(比如用户ID或商品ID)对应的隐向量可以通过矩阵分解得到,这些隐向量的内积可以用来预测用户对商品的评分或者偏好。

在自然语言处理中:

  • 单词或文档也可以用隐向量来表示,这种表示方法常被称为词嵌入(Word Embeddings),如Word2Vec、GloVe等模型生成的向量。
  • 这些隐向量可以捕获单词之间的语义相似性,使得在向量空间中距离相近的单词具有类似的含义。

在深度学习架构中:

  • 在神经网络中,Embedding层就是用来将离散的高维输入(如one-hot编码)转换为连续的低维隐向量,以便进行后续的计算和模式挖掘。

总的来说,隐向量是一种压缩和抽象的表示形式,它有助于模型理解和处理高维稀疏数据,并能够发现数据内部隐藏的模式和联系。

softmax函数是一种在机器学习和深度学习中广泛使用的归一化指数函数,主要用于多分类问题的输出层计算预测类别概率分布。

激活函数

注意力机制解决信息瓶颈问题

Transformer

BPE

交叉熵

正则化

加权平均是一种统计方法,用于计算一组数值的平均值时,考虑到每个数值的重要性(权重)不同。在普通平均数中,所有数据点都同等重要,而在加权平均中,每个数据点有一个与其对应的权重值,这个权重反映了该数据点在最终结果中的相对影响程度。

加权平均的计算公式为:

加权平均数=∑(每个数据值×对应权重)∑(所有权重)加权平均数=∑(所有权重)∑(每个数据值×对应权重)​

例如,在学校教育场景中,一个学生的学期总评成绩可能由平时测验、期中考试和期末考试的成绩按不同比例(权重)综合得出:

  • 平时测验:80 分,权重 20%
  • 期中考试:90 分,权重 30%
  • 期末考试:95 分,权重 50%

那么,该学生的学期总评成绩可以通过以下步骤计算:

学期总评成绩=(80×0.2)+(90×0.3)+(95×0.5)0.2+0.3+0.5学期总评成绩=0.2+0.3+0.5(80×0.2)+(90×0.3)+(95×0.5)​

此外,在财务领域,加权平均法常用于库存管理,计算存货的单位成本。例如,考虑一段时间内多次购入商品的情况,每次购入的数量和单价不同,这时会根据各批次进货的数量(作为权重)和其相应的单价来计算整个库存的平均单位成本。

3-13 预训练语言模型--PLM介绍_哔哩哔哩_bilibili

预训练

预训练语言模型

Transformers

PyTorch

fine-tune

“微调”(fine-tune)的具体含义略有不同,但核心都是对已有的事物进行精细化调整和优化:

  1. 在机器学习和人工智能领域,微调通常是指对预训练模型的参数进行进一步调整。例如,在深度学习中,我们可能首先采用一个已经在大规模数据集上预训练好的模型,然后将其应用到特定任务上时,针对这个特定任务的数据进行再次训练,通过调整部分或全部模型参数,使得模型能够更好地适应新任务的需求,从而提升模型在新任务上的性能。

load metric

3-20 Transformers教程--Demo讲解_哔哩哔哩_bilibili  重点看下

4-1 课程内容介绍_哔哩哔哩_bilibili

4-2 Prompt-Learning和Delta-Tuning--背景和概览_哔哩哔哩_bilibili

representation

在自然语言处理(NLP)和机器学习中,representation(表示法或表征)特指将语言中的单词、短语、句子或文档转化为计算机可以理解与操作的形式。这个过程是模型理解和生成自然语言的关键步骤。

在语言模型中,representation通常是指:

  • 词嵌入(Word Embedding):这是一种将每个单词映射到一个固定维度向量空间的技术,如Word2Vec、GloVe或BERT等预训练模型所生成的词向量,使得语义相近的词在向量空间上距离较近。

  • 上下文相关的表示(Contextual Representation):比如Transformer架构中的BERT和GPT系列模型产生的表示,它们不仅能捕捉单个词的一般含义,还能考虑词语在具体上下文环境下的含义变化,生成动态的上下文嵌入。

这些表示被用于各种下游NLP任务,如情感分析、命名实体识别、问答系统等,通过学习到的有效数据表示,模型能够更好地理解和推断文本信息。

sequence to sequence

Sequence to Sequence(简称Seq2Seq)是一种在自然语言处理和机器学习领域广泛应用的模型架构,主要用于处理输入和输出都是变长序列的任务。中文可以解释为“序列到序列”或“顺序到顺序”。

具体来说,Seq2Seq模型设计用于将一个输入序列(比如一段文本)通过神经网络转换成另一个不同长度的输出序列(比如翻译后的另一段文本)。这种模型通常包含两个主要部分:编码器(Encoder)和解码器(Decoder)。

  • 编码器负责读取并理解输入序列的信息,并将其压缩成一个固定维度的向量(称为上下文向量),这个向量包含了输入序列的整体语义信息。

  • 解码器则依据该上下文向量逐步生成目标序列,每次生成一个元素(如一个词或子词单元),直到生成结束标记或者达到预设的最大长度。

Seq2Seq模型常应用于机器翻译、文本摘要、对话系统、语音识别转文字等场景中。随着注意力机制(Attention Mechanism)的发展,Seq2Seq模型能够更灵活地处理源序列和目标序列之间的依赖关系,进一步提升模型性能。

在自然语言处理和机器学习的上下文中,“trigger”这个词有多重含义:

  1. 事件触发词:在信息抽取或情感分析等领域,触发词(Trigger)是指引起特定事件发生的词语。例如,在识别文本中的“灾害事件”,“发生”、“爆发”等词可能是表示灾害开始的触发词。

  2. 条件触发器:在自动化流程或者智能系统中,触发器(Trigger)指的是一种当满足特定条件时启动某个操作或过程的机制。例如,在数据库中,一个时间触发器会在特定时间点执行预设的SQL脚本。

  3. 心理触发:在心理学上,触发(Trigger)可能指的是某些刺激因素,它们能够激发个体的情绪反应、记忆或者其他心理状态。

  4. 对话系统触发:在构建对话系统时,触发也可以指代用户话语中引导系统进行某种响应的部分,比如特定命令词或问题类型。

根据不同的语境,触发(Trigger)的具体意义会有所不同。

在自然语言处理中,"positive"(积极的、正面的)通常用于描述文本的情感倾向或评价。例如,在情感分析任务中,如果一段文本被标记为“positive”,则表示这段文字传达了积极的情绪、正面的态度或者对某个主题给予了肯定评价。

另外,在机器学习和数据分析中,“positive”也可能指代一个实例所属的类别标签,比如在疾病诊断问题中,“positive”可能意味着测试结果呈阳性,即存在某种病症。

而在日常对话或写作中,“positive”一词也常常用来鼓励乐观态度、积极思维和正向行为。

在自然语言处理(NLP)领域中,embedding(嵌入、词嵌入或向量化)是指将文本中的单词、短语或者整个句子映射到一个低维连续向量空间的技术。这种向量空间通常被称为嵌入空间,其中每个词汇都有一个对应的向量表示。

通过embedding技术,原本离散的文本数据转换为数值型数据,使得机器学习和深度学习模型能够理解并处理自然语言。这些向量代表了词语在上下文环境中的语义特征,相似含义的词语在向量空间中的距离会比较接近,从而让模型能够捕捉词汇间的语义关系。

例如,在Word2Vec、GloVe等词嵌入方法中,通过训练可以得到每个词的向量表示。而在更复杂的模型如BERT、Transformer等中,不仅考虑单个词的嵌入,还引入了位置编码,并生成上下文相关的词嵌入,进一步提升了对文本理解的能力。

4-8 Prompt-Learning--应用_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/247484.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第十三章认识Ajax(四)

认识FormData对象 FormData对象用于创建一个表示HTML表单数据的键值对集合。 它可以用于发送AJAX请求或通过XMLHttpRequest发送表单数据。 以下是FormData对象的一些作用: 收集表单数据:通过将FormData对象与表单元素关联,可以方便地收集表…

AF647-羧酸,Alexa-Fluor 647-羧酸,适合用于标记蛋白质

您好,欢迎来到新研之家 文章关键词:AF647-carboxylic-acid ,AF647-COOH,AF647-acid,Alexa-Fluor 647-acid,AF647-羧酸,Alexa-Fluor 647-羧酸 一、基本信息 产品简介:AF647&#x…

周报(20240128)

日期:2024.1.22 - 2024.1.28 本周工作: 1. 阅读论文 本周阅读了以下论文: 《BRAU-Net:用于医学图像分割的U形混合CNN-Transformer网络》 背景 精确的医学图像分割对于临床量化、疾病诊断、治疗计划和许多其他应用至关重要。基…

深度学习核心技术与实践之深度学习研究篇

非书中全部内容,只是写了些自认为有收获的部分。 Batch Normalization 向前传播 (1)三个主要任务:计算出每批训练数据的统计量。 对数据进行标准化 对标…

赛氪荣获“2023天津高新技术企业大会支持单位”

1月23日上午,2023天津市高新技术企业大会新闻发布会在天开高教科技园核心区综合服务中心召开,市高企协以及来自高校、企业、社会组织等80余人现场参会。 大会组委会秘书长张博航介绍到:“本次大会将实现自开办以来的多个首次,首次…

AIDL实践

先贴最后的文件目录: aidl/android/hardware/demo/IFoo.aidl: package android.hardware.demo;import android.hardware.demo.IFooCallback;VintfStability interface IFoo {void doFoo();int doFooWithParameter(int param);void registerCallback(IFo…

案例分析技巧-软件工程

一、考试情况 需求分析(※※※※)面向对象设计(※※) 二、结构化需求分析 数据流图 数据流图的平衡原则 数据流图的答题技巧 利用数据平衡原则,比如顶层图的输入输出应与0层图一致补充实体 人物角色:客户、…

力扣3. 无重复字符的最长子串(滑动窗口)

Problem: 3. 无重复字符的最长子串 文章目录 题目描述思路及解法复杂度Code 题目描述 思路及解法 由于题目要求求出字符串中最长的连续无重复字符的最长子串,所以利用这个特性我们可以比较容易的想到利用双指针中的滑动窗口技巧来解决,但在实际的求解中…

[机器学习]简单线性回归——梯度下降法

一.梯度下降法概念 2.代码实现 # 0. 引入依赖 import numpy as np import matplotlib.pyplot as plt# 1. 导入数据(data.csv) points np.genfromtxt(data.csv, delimiter,) points[0,0]# 提取points中的两列数据,分别作为x,y …

从CNN ,LSTM 到Transformer的综述

前情提要:文本大量参照了以下的博客,本文创作的初衷是为了分享博主自己的学习和理解。对于刚开始接触NLP的同学来说,可以结合唐宇迪老师的B站视频【【NLP精华版教程】强推!不愧是的最完整的NLP教程和学习路线图从原理构成开始学&a…

TCP_拥塞控制

引言 24年春节马上就要到了,作为开车党,最大的期盼就是顺利回家过年不要堵车。梦想是美好的,但现实是骨感的,拥堵的道路让人苦不堪言。 在网络世界中,类似于堵车的问题也存在,而TCP(Transmissi…

如何使用Everything随时随地远程访问本地电脑搜索文件

文章目录 前言1.软件安装完成后,打开Everything2.登录cpolar官网 设置空白数据隧道3.将空白数据隧道与本地Everything软件结合起来总结 前言 要搭建一个在线资料库,我们需要两个软件的支持,分别是cpolar(用于搭建内网穿透数据隧道…

数据结构排序算详解(动态图+代码描述)

目录 1、直接插入排序(升序) 2、希尔排序(升序) 3、选择排序(升序) 方式一(一个指针) 方式二(两个指针) 4、堆排序(升序) 5、冒…

go包与依赖管理

包(package) 包介绍 Go语言中支持模块化的开发理念,在Go语言中使用包(package)来支持代码模块化和代码复用。一个包是由一个或多个Go源码文件(.go结尾的文件)组成,是一种高级的代码…

CSS之定位

定位在CSS当中是一个比较重要的点,接下来,让我为大家介绍一下定位吧! 属性描述position-relative相对定位position-absolute绝对定位position-fixed固定定位position-sticky粘性定位position-static静态定位 一、相对定位 给元素设置 posi…

Vue-40、Vue中TodoList案例

1、MyHeader.vue <template><div class"todo-header"><input type"text" placeholder"请输入你的任务名称&#xff0c;按回车键确认" v-model"title" keyup.enter"add"></div> </template>&…

OpenHarmony—仅允许在表达式中使用typeof运算符

规则&#xff1a;arkts-no-type-query 级别&#xff1a;错误 ArkTS仅支持在表达式中使用typeof运算符&#xff0c;不允许使用typeof作为类型。 TypeScript let n1 42; let s1 foo; console.log(typeof n1); // number console.log(typeof s1); // string let n2: typeof …

什么是SQL,什么是MYSQL?MYSQL的架构以及SQL执行语句的过程是什么?有哪些数据库的类型?一篇文章带你弄懂!

文章目录 前言一、为什么需要数据库二、数据库的相关概念1.什么是结构化查询语言 (SQL)2.什么是数据库管理系统 (DBMS)3.什么是 MySQL 数据库 三、数据库分类1.关系型数据库&#xff08;SQL&#xff09;2.非关系型数据库&#xff08;NoSQL&#xff09; 四、MYSQL架构1.各组件功…

ES 分词器

概述 分词器的主要作用将用户输入的一段文本&#xff0c;按照一定逻辑&#xff0c;分析成多个词语的一种工具 什么是分词器 顾名思义&#xff0c;文本分析就是把全文本转换成一系列单词&#xff08;term/token&#xff09;的过程&#xff0c;也叫分词。在 ES 中&#xff0c;Ana…

河南冷链物流盛典 华鼎科技引领行业创新共筑冷链强省梦

近日&#xff0c;由河南省商务厅指导、河南省物流协会主办的在郑州举行&#xff0c;本次大会以“创新驱动未来”为主题,近300名冷链物流行业精英、专家学者等参加了本届盛典。 河南省委、省政府高度重视物流业发展&#xff0c;出台了《河南省“十四五”现代物流业发展规划》、…