NLP相关知识点(慢慢更新)

一、基础概念

1.1. NLP 中的 Tokenization 是什么?

NLP技术中 Tokenization 也可以被称作是“word segmentation”,直译为中文是指 分词

分词是NLP的基础任务,按照特定需求能把文本中的句子、段落切分成一个字符串序列(其中的元素通常称为token或叫词语)方便后续的处理分析工作。

1.2. formal language 和 natural language 有什么不同?

  • 自然语言 (natural language) 是人们交流所使用的语言。例如英语、汉语等。 它们不是人为设计出来的(尽管有人试图这样做),而是自然演变而来的。
  • 形式语言 (formal language) 是人类为了特殊用途而设计出来的。例如,数学家使用的记号(notation)就是形式语言,特别擅长表示数字和符号之间的关系。化学家使用形式语言表示分子的化学结构。最重要的是编程语言是被设计用于表达计算的形式语言。

1.3. stemming 和 lemmatization 有什么区别?

  • 词干提取(stemming)是抽取词的词干或词根形式(不一定能够表达完整语义)
  • 词形还原(lemmatization),是把一个任何形式的语言词汇还原为一般形式(能表达完整语义)

词形还原和词干提取是词形规范化的两类重要方式,都能够达到有效归并词形的目的。
二者区别:

  • 在原理上,词干提取主要是采用“缩减”的方法,将词转换为词干,如将“cats”处理为“cat”,将“effective”处理为“effect”。而词形还原主要采用“转变”的方法,将词转变为其原形,如将“drove”处理为“drive”,将“driving”处理为“drive”。
  • 在复杂性上,词干提取方法相对简单,词形还原则需要返回词的原形,需要对词形进行分析,不仅要进行词缀的转化,还要进行词性识别,区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂
  • 在实现方法上,虽然词干提取和词形还原实现的主流方法类似,但二者在具体实现上各有侧重。词干提取的实现方法主要利用规则变化进行词缀的去除和缩减,从而达到词的简化效果。词形还原则相对较复杂,有复杂的形态变化,单纯依据规则无法很好地完成。其更依赖于词典,进行词形变化和原形的映射,生成词典中的有效词
  • 在结果上,词干提取和词形还原也有部分区别。词干提取的结果可能并不是完整的、具有意义的词,而只是词的一部分,如“revival”词干提取的结果为“reviv”,“ailiner”词干提取的结果为“airlin”。而经词形还原处理后获得的结果是具有一定意义的、完整的词,一般为词典中的有效词。
  • 在应用领域上,同样各有侧重。虽然二者均被应用于信息检索和文本处理中,但侧重不同。词干提取更多被应用于信息检索领域,如Solr、Lucene等,用于扩展检索,粒度较粗。词形还原更主要被应用于文本挖掘、自然语言处理,用于更细粒度、更为准确的文本分析和表达。

1.4. NLU是什么?

  • 自然语言理解(Natural Language Understanding, NLU)是所有支持机器理解文本内容的方法模型或任务的总称
  • NLU 在文本信息处理处理系统中扮演着非常重要的角色,是推荐、问答、搜索等系统的必备模块。

NLP 是我们在让机器基于文本数据完成特定任务时使用的思想、方法和技术的总称——其中一部分支持机器理解文本数据的内容,因此统称 NLU、一部分支持机器生成人类可以理解的文本数据,因此统称NLG。换句话说,NLU 和 NLG 都是 NLP 的一部分

二、机器学习

2.1. 什么是 GBDT 算法?

  • GBDT (Gradient Boosting Decision Tree) :梯度提升迭代决策树

  • GBDTBoosting 算法的一种,但是和 AdaBoost 算法不同。

    • AdaBoost 算法是利用前一轮的弱学习器的误差来更新样本权重值,然后一轮一轮的迭代;
    • GBDT 也是迭代,但是 GBDT 要求弱学习器必须是 分类回归树(CART)模型,而且 GBDT 在模型训练的时候,是要求模型预测的样本损失尽可能的小。

GBDT 直观理解:每一轮预测和实际值有残差,下一轮根据残差再进行预测,最后将所有预测相加,就是结果。
在这里插入图片描述

2.2. 什么是XGBoost算法?

XGBoost 本身就是 GBDT 算法,它是在 GBDT 算法的基础上进行了一系列的优化,从而使算法拥有了更好的性能。

  • GBDT是机器学习算法,XGBoost是该算法的工程实现。
  • 在使用CART作为基分类器时,XGBoost显式地加入了正则项来控制模型的复杂度,有利于防止过拟合,从而提高模型的泛化能力。
  • GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开,可以同时使用一阶和二阶导数。
  • 传统的 GBDT 采用 CART 作为基分类器,XGBoost支持多种类型的基分类器,比如线性分类器。
  • 传统的GBDT在每轮迭代时使用全部的数据,XGBoost则采用了与随机森林相似的策略,支持对数据进行采样。
  • 传统的GBDT没有设计对缺失值进行处理,XGBoost能够自动学习出缺 失值的处理策略。

三、常用模型

3.1. ELMo 模型

  • ELMo(Embeddings from Language Models),是allen NLP 在18年6月NAACL上发的一个词向量训练模型。

Elmo的作用是训练一个模型,用来表示某个词,换句话说,和word2vec和GloVe功能是一样的,这个新的训练方法有两点进步:

能够处理单词用法中的复杂特性(比如句法和语义)
有些用法在不同的语言上下文中如何变化(比如为词的多义性建模)
在这里插入图片描述

3.10. BERT 与 GPT 的区别?

时间线:Transformer → GPT → BERT → GPT2 → GPT3 → GPT3.5(ChatGPT) → GPT4 。

  • GPT-1是OpenAI在2018年6月推出的第一个版本,共有12个Transformer编码器层,其中每个编码器层包含了768个隐藏层单元。GPT-1使用的预训练数据来自WebText,这是一个包含800万个网页的数据集。通过预训练后,GPT-1在多个下游任务上取得了较好的结果。
  • GPT-2是在GPT-1的基础上进行改进,于2019年2月发布。GPT-2在架构上与GPT-1相似,但它具有更多的参数和更高的性能。GPT-2拥有1.5亿个参数,是GPT-1的10倍。GPT-2使用更大的文本数据集进行预训练,包括Common Crawl、WebText和BooksCorpus等。与GPT-1相比,GPT-2在文本生成和其他下游任务上的表现都有显著提升。
  • GPT-3是于2020年6月发布。GPT-3具有1750亿个参数,是GPT-2的10倍以上。GPT-3使用更大规模的语料库进行预训练,包括Common Crawl、WebText、BooksCorpus、Wikipedia和其他大型数据集。此外,GPT-3采用了更复杂的架构和更多的技术改进,如动态控制模型大小、层级分解、流控制等。GPT-3在各种自然语言处理任务上取得了出色的表现。
  • ChatGPT是一个基于GPT-3.5模型的应用,主要用于生成对话文本,包括聊天机器人、客服对话等场景。相比于GPT-3.5等通用语言模型,ChatGPT更加专注于对话场景,通过针对对话语境的优化,能够生成更加贴近对话场景的自然语言文本。

GPT(Generative Pre-trained Transformer)是由OpenAI团队于2018年提出的一种预训练语言模型。GPT是一个单向语言模型,其输入只能是文本的左侧部分。GPT使用Transformer模型,将大量无标注的文本数据预训练,然后可以用于各种下游NLP任务,如文本生成、机器翻译、问答系统等。
BERT(Bidirectional Encoder Representations from Transformers)由Google研发,于2018年首次发表。BERT是一个双向语言模型,采用的是双向的Transformer。BERT与GPT一样,采取了Pre-training + Fine-tuning的训练方式,在分类、标注等任务下都获得了更好的效果。

主要区别:

  1. GPT是单向模型,无法利用上下文信息,只能利用上文;而BERT是双向模型。
  2. GPT采用的是 Transformer 架构中的 Decoder 模块;BERT采用的是 Transformer 架构中的 Encoder 模块。
  3. GPT是基于自回归模型,可以应用在 NLU 和 NLG 两大任务;原生的BERT采用的基于自编码模型,只能完成 NLU 任务,无法直接应用在文本生成上面。
  4. 同等参数规模下,BERT的效果要好于GPT。
    在这里插入图片描述

3.11. BERT、GPT、 ELMo 各自的优点和缺点?

① ELMo

优点:

  • 从早期的 Word2Vec 预训练模型的最大缺点出发, 进行改进, 这一缺点就是无法解决多义词的问题。
  • ELMo根据上下文动态调整word embedding, 可以解决多义词的问题.

缺点:

  • ELMo使用LSTM提取特征的能力弱于Transformer。
  • ELMo使用向量拼接的方式融合上下文特征的能力弱于Transformer。

② GPT

优点:

  • GPT使用了Transformer提取特征, 使得模型能力大幅提升.

缺点:

  • GPT只使用了单向Decoder, 无法融合未来的信息.

③ BERT

优点:

  • BERT使用了双向Transformer提取特征, 使得模型能力大幅提升.
  • 添加了两个预训练任务, MLM + NSP的多任务方式进行模型预训练.

缺点:

  • 模型过于庞大, 参数量太多, 需要的数据和算力要求过高, 训练好的模型应用场景要求高。
  • 更适合用于语言嵌入表达, 语言理解方面的任务, 不适合用于生成式的任务。

在这里插入图片描述




参考文章:
https://baijiahao.baidu.com/s?id=1739586850023759094
https://blog.csdn.net/ab153999/article/details/108306008
https://blog.csdn.net/m0_37870649/article/details/93341372
https://www.jianshu.com/p/405f233ed04b
https://www.jianshu.com/p/8cfd98e4e14c

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/18253.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCould+Vue3-Element-Admin 登录接口,用户信息接口以及Token验证的实现【Taurus教育平台】

文章目录 一.SpringCouldVue3-Element-Admin 登录接口,用户信息接口以及Token验证的实现【Taurus教育平台】1.1 背景1.2 数据库 二、登录接口及其Token实现2.1 前端2.2 后端2.2.1 控制层2.2.2 service层2.2.3 工具类:CreateJwt2.2.4 Dao-Mapper 三、用户…

【Bert、T5、GPT】fine tune transformers 文本分类/情感分析

【Bert、T5、GPT】fine tune transformers 文本分类/情感分析 0、前言text classificationemotions 数据集data visualization analysisdataset to dataframelabel analysistext length analysis text > tokenstokenize the whole dataset fine-tune transformersdistilbert…

Django通过nginx 部署(成功运行)

配置python版本和ssh启用root参考其它文章 完整项目路径 /root/projects/mysutra_pro 下级目录/root/projects/mysutra_pro/mysutra是源码目录 rootVM-12-2-debian:~/projects/mysutra_pro# ls db.sqlite3 manage.py ms_env mysutra rootVM-12-2-debian:~/projects/mysutr…

es Elasticsearch的增删改查(含数组操作)(类型,原理) - from chatgpt

父文章 算法中的特征的保存, es 和 mysql 和 odps hadoop hbase的区别_个人渣记录仅为自己搜索用的博客-CSDN博客 Elasticsearch如何做到数十亿数据查询毫秒级响应? - 知乎 ES系列之利用filter让你的查询效率飞起来_es filter_lucasma.eth的博客-CSDN博客 ES查询…

文心一言对比chatgpt

文章目录 一、 介绍二、 回复速度比较三、 写代码能力四、 做表格能力五、 写文案能力六、 解决数学问题能力七、 绘画能力八、 实时更新信息九、 总结 一、 介绍 文心一言对比chatgpt。 测试了上百个案例,挑选几个经典的案例。 二、 回复速度比较 百度文心耗时10…

CSDN chatGPT初体验

我的问题:用java实现一个B树 public class BTree {private int t;private Node root;private class Node {private int n;private boolean leaf;private int[] keys;private Node[] children;public Node(boolean leafNode) {this.n 0;this.leaf leafNode;this.ke…

chatgpt赋能python:Python岗位需求日渐增加

Python岗位需求日渐增加 Python编程语言在当前的IT行业中越来越受欢迎。其灵活性和易用性使得Python在各种领域中使用广泛,比如Web开发、数据科学、人工智能等。作为一名有10年Python编程经验的工程师,我认为Python是一种非常有前途的编程语言&#xff…

ChatGPT可能被滥用于网络犯罪

科技是一把双刃剑 ChatGPT一经发布,短时间内就成为了现象级的应用。其清晰明确的回答和丰富的知识,昭示着AI技术造福人类,彻底简化我们生活工作这一美好的未来愿景。对于解决各行各业的许多问题,ChatGPT也提供了另外一种思路&…

用ChatGPT构建网络设备表,并根据设备关系生成网络拓扑

构造一个数据表,存储包括交换机、路由器、防火墙、入侵检测、上网行为管理等设备的编号、序列号、IP、MAC、访问地址、用户名、密码、管理员、物理位置、上联设备ip等信息 下面是一个示例数据表: Device IDSerial NumberIPMACAccess URLUsernamePassword…

七大语言模型“偏见与毒性”的角逐,ChatGpt3.5综合表现优良

颠覆性的技术进步和人工智能的快速发展,催生了现如今LLM(大型语言模型)和AIGC(AI生成内容)的盛行。这些创新性的模型和算法不仅能够理解、生成和处理人类语言,还能够模拟智能思维和创造力,成为各…

阿里版ChatGPT已接入钉钉,张勇:未来所有业务都有大模型加持

机器之心报道 机器之心编辑部 阿里:大模型也是基础设施。 4 月 7 日下午,阿里云没有一点预告的突然宣布,自研类 ChatGPT 产品开启企业邀测,模型名为「通义千问」。 虽然是非常小范围的测试,但邀测消息刚放出&#xff…

阿里巴巴开源Chat2DB v1.0.11 初体验

阿里巴巴开源Chat2DB v1.0.11 初体验 前言什么是Chat2DB下载安装安装配置Chat2DB初体验配置数据源准备测试数据认识几个功能菜单开始测试自然语言转SQLSQL解释SQL优化 使用总结后续功能结语 前言 作为一名阿里巴巴开源项目的拥护者,从Chat2DB开源至今都有关注这个开…

估值 2 个月从 11 亿美元降到 3 亿美元,投资人清仓跑路,国产大模型创业遇冷...

图片来源:由无界 AI生成 创业未半,而中道崩殂。 6 月 29 日,美团发布公告以 20.65 亿元全资收购光年之外全部权益,距离光年之外正式营业刚过去 84 天。 这是目前中国大模型创业领域最大的收购案,光年之外也在 4 个月时…

英伟达帝国的一道裂缝

2012年,AI圈发生了两件大事,按时间顺序,第一件是谷歌组团已久的Google Brain发布“出道作”——一个能够识别猫的深度学习网络“谷歌猫”,74.8%的识别准确率,比知名识别图像大赛ImageNet前一年获胜算法的74%还要高出0.…

也谈“前端已死”

一、一些迹象 逛社区,偶然看到了这张图片: 嗯……我眉头一皱,久久不语,心想,有这么夸张吗,假的吧? 突然想到,最近我在社区发了个前端招聘的信息,结果简历漫天纷飞&…

写文、画图、替人直播,小巨头混战AIGC

文|光锥智能,作者|黄小艺、郝鑫,编辑|刘雨琦 大模型的春风,吹乱了内容平台们的心。 作为“被革命”的第一梯队,内容平台们跃跃欲试,欲抢占时间窗口。 5月6日,小红书被曝…

AI来势汹汹,这份「生存计划」请查收!

AIGC即人工智能生产内容,最近可太火了,但是火了这么久,有些人都没明白到底为什么火?甚至不明所以觉得“AI替代XX”,小编认为没必要焦虑,一起来看一下吧。 AI工具们一日千张图、3小时写一本书、2分钟构建一个…

“前端已死”

一、一些迹象 逛社区,偶然看到了这张图片: 嗯……我眉头一皱,久久不语,心想,有这么夸张吗,假的吧? 突然想到,最近我在社区发了个前端招聘的信息,结果简历漫天纷飞&…

爆肝一晚上,我总结了 2023 年程序员必学的 Prompt Engineering 高杠杆技术!

前言 大家好,我是「周三不Coding」。 众所周知,程序员不能失去 ChatGPT,就像西方不能失去耶路撒冷。 ChatGPT 的爆火也使得 Prompt Engineering 这门技术为众人熟知。 短期来看,Prompt Engineering 是一门高杠杆技术&#xff…

chat GPT 能给普通人带来什么机会?

最近全网爆火的chat GPT 相信大家都有点了解,今天给大家一些参考:其实23年年初我就被一个朋友推荐了ChatGPT,当时他说让我体验下,说实话之前也被不少(假,或者半成品)AI技术糊弄过,也…