以ChatGPT为例进行自然语言处理学习——入门自然语言处理

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。
如果觉得本文能帮到您,麻烦点个赞👍呗!

近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三连支持一下呗。👍⭐️❤️
Qt5.9专栏定期更新Qt的一些项目Demo
项目与比赛专栏定期更新比赛的一些心得面试项目常被问到的知识点。

⭐️最近在整理以前的学习资料时,看到了之前之前入门NLP的一些学习笔记,就进行了一些整理。

在这里插入图片描述

目录

    • 一、热点与背景
    • 二、什么是自然语言处理
    • 三、目前自然语言处理有哪些挑战呢?
    • 四、Word2Vec
      • 4.1 为什么要学习`Word2Vec`
      • 4.2 为什么需要词向量?
        • 1、词语序的问题
        • 2、词相似性带来的问题
      • 4.3 Word2Vec有什么意义呢?
      • 4.4 Word2Vec的维度意义
        • 一、**词向量模型训练**
        • 二、词向量模型训练--黑盒
        • 三、Word2Vec的实现方法
        • 四、直接建模的问题——以Skip-gram为例
        • 五、负采样方法的引入——以Skip-gram为例
        • 六、小结
        • 附录:词向量长什么样子:

一、热点与背景

各位同学,欢迎来到今天的课程!我们将会探索一门有趣且富有挑战性的领域——自然语言处理。在本次课程中,我将先介绍一下当下人工智能领域的热点,以此引出什么是什么是自然语言处理,以及它的应用,以及自然语言基石的“词向量Word2Vec

image-20230417100959287

相信各位同学最近都听过ChatGPTGPT-4,百度的文言一心甚至有些同学也已经玩上了这些工具,大家都知道这是人工智能的产物,但是ChatGPT有哪些功能,我们进行一个简单的介绍。

我们输入一句:

作为一名刚入门自然语言处理的同学,第一堂课的学习,你能给些建议吗?

即使这个输入,可能含有错别字。

image-20230417101215054

那这背后运用的是那些技术的呢?

CV还是自然语言处理

二、什么是自然语言处理

上述设计到的模型所用的人工智能领域技术是自然语言处理,那么什么是自然语言处理呢?

我们来看一下维基百科上是如何进行定义的:

计算机科学与语言学领域交叉的一门学科,目的是让计算机能够理解、解释、生成人类语言。

这么说可能会优点抽象,简单来说就是:

自然语言处理 (Nautral Language Process, NLP) =自然语言理解(Natural Language Understand, NLU) + 自然语言生成
(Natural Language Generate, NLG)。

可能这在你看来是很神奇的一件事情,但其实ChatGPT也就做了这两部分的内容。

总的来说:NLP = NLU + NLR

ChatGPT可以说是自然语言处理综合应用的一个典型的模型了

image-20230417104322724

自然语言处理技术可以看出是两个阶段。

我们以ChatGPT为例,他是如何做到这些功能的呢?

(通过一个图 人–>电脑 电脑—人)

ChatGPT为例,我们每一次向他输入一段话的时候,会发生哪些事情呢?

image-20230323073852717

其中词法分析、句法分析、语义分析属于NLU任务,对话管理生成回复属于NLG任务。

我门进行一个简单的小结。

image-20230417104630271

三、目前自然语言处理有哪些挑战呢?

与图像处理相比,自然语言处理更为复杂。

image-20230417104726259

图像:所见即所得

文本:所要的文字背后的语义。

简单来说自然语言处理,普遍遇到以下三个问题:

image-20230417104824990

万丈高楼平地起,接下来我们讲解一下自然语言处理的基石Word2Vec

四、Word2Vec

自然语言处理以及语言模型的本质是词向量。

我们以问题为导向进行Word2Vec的学习。

4.1 为什么要学习Word2Vec

从自然语言的发展趋势来看:

从词向量表示方法出现后,短短5年时间,自然语言处理就得到了大幅度进展(预训练语言模型BERTGPT).。

image-20230417105310846

4.2 为什么需要词向量?

一句话或一个文章都是一个词一个词组成。

解决了基于规则和基于统计学习方法遗留的问题:

•输入词的语序问题。

•词之间相似性的问题。

1、词语序的问题

基于统计的方法:

只看一个词的出现和总体的关系。

但是这种统计词频,避免不了一个问题,就是比如一个词出现在不同的位置,所表达的语义是不同的。如下面的例句。

Input1:我|要|学习|自然|语言|处理。

Input2:我|要|语言|自然|地|学习。

2、词相似性带来的问题

比如:

“自然语言处理”=“NLP”

但与“吃饭”无关。

不同语义的文字相似度应该低,相同语义的相似度高。

具体表现在二维空间上是距离的疏远

image-20230417105936126

相关性

越相近的表达离得越近 。

通过一些问题来解释。

这里有个前提大家先熟悉了神经网络,不过多强调神经网络而是把重点放到词向量模型中。

先考虑第一个问题:

4.3 Word2Vec有什么意义呢?

看起来比较抽象,可以先从人的角度来观察。

比如说,现在来了一个人,我们应该如何对其进行描述呢?

image-20230323094947174

对一个人进行打分,一个指标相当于一个维度****。

身高、性格、能力等综合特征多个维度构成了一个独特的人的描述。

当我们有了这种多个指标构成的多种维度时,我们就可以进行向量的运算

比如相似度计算:

image-20230417110925985

欧拉公式、余弦公式通过距离计算他们的相似度。

4.4 Word2Vec的维度意义

在实际的训练过程中,数据的维度越高,能提供的信息也就越多,从而计算结果的可靠性就更值得信赖。(通常为50-300维)

image-20230323095558232

一、词向量模型训练

image-20230323100545439

输入:词的特征。

黑盒:通过神经神经网络反向传播调整模型参数

输出:下个单词的预测

二、词向量模型训练–黑盒

我们来看一下一个整体的结果:

image-20230417111409299

训练过程:

1.从embedding表中查找输入词的初始embedding值

2.通过神经网络来预测下一个值。

3.前向传播:求损失函数的值

4.反向传播:更新权重参数和输入的embedding值

三、Word2Vec的实现方法

输入:自然 语言 处理 包含 很多 任务

分为两个部分

image-20230417111635642

简单来说:

就是输入的不同,CBow,以上下文预测中渐次。Skip-gram 以一个中间词预测上下文。

四、直接建模的问题——以Skip-gram为例

输入:自然 语言 处理 包含 很多 任务

Window Size = 3

image-20230417111903608

存在的问题:求解一个Length(corpus)的多分类问题。

解释:因为从预测结果来看,候选词为长度-1 个。

解决办法:将输入与输出同时作为输入,计算候选输出的概率。

image-20230417114105584

解释:然而由于输入包含了输出的标签,预测目标全为1,因此模型进行乱猜导致无法训练。

五、负采样方法的引入——以Skip-gram为例

由于训练过程只有正样本,导致模型训练无法收敛,因此可以适当添加错误的样本。

负采样(Negative Sample)方法:在输入样本中加入负样本(错误的样本)

输入:自然 语言 处理 包含 很多 任务

image-20230418092400680

根据大量实验的经验值:负样本个数3-5个比较合适

六、小结

  1. Word2Vec的意义
  2. 词向量模型的训练
  3. Word2Vec实现方法
  4. 直接建模的问题
  5. 负采样的引入

image-20230418092453548

附录:词向量长什么样子:

输出Word2Vec下面是一个五十维的向量:

image-20230323095953047

我们用热度图来判断他们之间的相似性

image-20230323100146498

我们用热度图来判断他们之间的相似性,其中红色越深 关系越强。

image-20230323100206154

假设我们已经训练好了词向量,

image-20230323100234725

观察一下当前的词向量的相似性:

image-20230323100413109

可以可视化的观察到,词向量的相关性。

最后,最后
如果觉得有用,麻烦三连👍⭐️❤️支持一下呀,希望这篇文章可以帮到你,你的点赞是我持续更新的动力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6938.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT可以改变哪些行业?

ChatGPT(OpenAI的语言模型)可以改变多个行业,如: 客服机器人:ChatGPT 可以提供自然语言处理功能,以实现对客户提出的问题的自动回答。 语言翻译:ChatGPT 可以支持多种语言翻译,以便…

盘点一下chatGPT的10个优点

大规模语言培训: ChatGPT是一个大型的语言模型,通过OpenAI进行了大量的训练,因此它能够理解和回答各种类型的问题。 实时回答:ChatGPT可以立即回答您的问题,没有延迟。 准确性高:ChatGPT通过大量的训练,使…

facebook报“拒绝访问,你目前没有访问公共主页的权限”

facebook报“拒绝访问,你目前没有访问公共主页的权限” 在app端登录,没邮箱的绑定一个邮箱,没有绑手机的绑定一个手机,用另一个绑定的重新登录,网上的开启双重验证的没用,似乎是facebook的一个bug

phpmyadmin启动时显示拒绝访问问题排查

phpmyadmin启动时显示拒绝访问 当启用apache服务器,输入http:localhost:8800/phpmyadmin显示计算机积极拒绝访问,可以看看下面解决方案,我自己的按照第一个去设置密码,然后重启xampp,结果还是拒绝访问,后来…

文件夹显示无法访问、拒绝访问需要权限的解决方法

为了简便管理资料,我们都会选择在电脑上建立文件夹来保存不同作用的资料。文件夹显示无法访问、拒绝访问需要权限的解决方法但是当我们遇到某些文件夹打不开无法访问、拒绝访问时该怎么办呢?这里和大家讲一个方法来解决遇到文件夹无法访问、拒绝访问的这…

文件拒绝访问且无法显示当前所有者

博客来源: 进行项目创建的时候,由于操作过快,导致出现这种问题,进行各种方法都删除不掉,决定写下博客进行记录这次诡异之事 出现的情况 进行属性的查看 点击继续 或者 更改所有者 后 难搞~ 解决了,遇到这种…

优雅的接口防刷处理方案

大家好,我是老赵! 本文为描述通过Interceptor以及Redis实现接口访问防刷Demo 这里会通过逐步找问题,逐步去完善的形式展示 原理 通过ip地址uri拼接用以作为访问者访问接口区分通过在Interceptor中拦截请求,从Redis中统计用户访问接口次数从而…

生成式AI发现潜在抗癌药物;王慧文与“一流科技”达成并购意向;阿里巴巴公布六大业务集团CEO丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 阿里巴巴公布六大业务集团CEO:张勇兼任阿里云智能集团CEO 3月28日,阿里巴巴集团董事会主席兼首席执行官张勇发布全员信,宣布启动“16N”组织变革。根据全员信,张勇…

感谢十二年的陪伴——分享回归,不忘初心(Eastmount博客总结及未来规划)

曾记否,2021年4月28日,为了更好地从事科研和学习,当时给所有读者群发了我在CSDN唯一的私信,感谢大家十年的陪伴,短暂消失,不负青春。当时也收到了很多博友的鼓励与祝福,感恩。 是啊&#xff01…

爆火的 Auto-GPT 被过分吹捧了!

整理 | 王子彧 出品 | CSDN(ID:CSDNnews) Jina AI 的创始人兼 CEO 肖涵发布的《揭秘 Auto-GPT 喧嚣背后的残酷真相!》一文中,肖涵博士表示道:想要在现实的生产环境中使用 Auto-GPT,首先面临的障…

雷军:小米汽车争取15-20年进入世界前五;GitHub宣布裁员10%,全员转远程办公;谷歌AR/VR负责人宣布离职|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

快来!Claude无需魔法不限量;百度官方AIGC公开课;Prompt高质量答案完全指南;GPT-5真的要来了?贾扬清离职阿里后首次受访 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『3月AI大事记&干货集』4月国内互联网持续发力中,精彩精彩 🤖 『GPT-4.5/GPT-5真的要来了?』怎…

一文讲透产品经理如何用好ChatGPT

作者:京东零售 何雨航 “4.0版本的ChatGPT可以有效提升产品经理工作效率,但并无法替代产品经理的角色。” 一、引言 3月15日,OpenAI发布了最新的基于GPT-4的ChatGPT,关于其智能性的讨论热度在互联网上空前高涨。 我之前体验过3…

【产业互联网周报】微软Bing搜索全面开放ChatGPT;阿里云回应工商变更;科大讯飞发布星火大模型...

关注ITValue,看企业级最新鲜、最价值报道! 拜登会见人工智能公司CEO,并亲自使用了ChatGPT;白宫宣布首个AI监管计划:拨款1.4亿美元研究,制定指导方针;讯飞星火算力硬件主要由华为提供&#xff0c…

AI人工智能大模型失守!ChatGPT、BARD、BING、Claude 相继被提示攻击攻陷!

“ 提示攻击,一种利用巧妙的技巧和迷惑性的指令,让这些顶尖的语言模型产生混乱或错误的回答的方法。” 01 — 什么是提示攻击‍‍ 之前在文章:已证实:GPT不能提供有效的Windows11的密钥 提到,有人曾利用让 ChatGPT 扮演…

谷歌AI聊天机器人Bard答错问题,股价大跌7.4%;淘宝屏蔽ChatGPT;孟晚舟4月将首次当值华为轮值董事长丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 投融资‍‍ 深氧科技获千万元级天使轮融资 3D短视频的一站式AIGC引擎技术服务提供商深氧科技于2月8日宣布完成由汉能创投投资的千万元级天使轮融资。本次融资用于产品迭代及技术团队扩充。 深氧科技成立于2022年&#xf…

李想两万字回应:我们如何造车?

来源:汽车电子与软件 3月2日举办的特斯拉投资者日,投资者们不太开心。股东们都期望着特斯拉解决眼前市场需求不足的急迫问题,但马斯克只想用清洁能源拯救地球——斥资10万亿美元,还要全世界团结在一起。 如果不是他已经带领特斯拉…

Django项目中的问题

文章目录 文章目录 文章目录nginx uwsgi django如何实现第三方认证多人联机对战使用Trift服务实现匹配模块mq 基础知识为什么需要mqmq的使用场景消息队列优点mq的问题消息队列中的topic 做项目时遇到的难点redis和mysql1.redis的基本知识redis的数据结构持久化AOF日志RDB快照…

你说你还不会Redis?别怕,今天带你搞定它!

Redis 前言 本文章是我学习过程中,不断总结而成,篇幅较长,可以根据选段阅读。 全篇17000字,图片 十三 张,预计用时1小时。 认识Redis 什么是Redis? 要使用一门技术,首先要知道这门技术是什…

学习Vue这一个就够

1、淘宝镜像 1: 解释一下 npm 为什么要配置淘宝镜像原因:因为node.js 默认使用的是国外的网站 。国内访问有一个跨国内局域网的操作。所以就会有时候很慢。这就跟为什么网站的静态资源有些会使用CDN 加速一样的淘宝镜像是什么?就是npm 很多的插件淘宝已经…