【Python机器学习】NLP概述——词序和语法

词的顺序很重要,那些在词序列(如句子)中控制词序的规则被称为语言的语法(也被称为文法)。这是之前的词袋或词向量例子中所丢弃的信息。在大多数简短的短语甚至许多完整的句子中,上述词向量近似方法都可以奏效。如果只是想对一个短句的一般意义和情感进行编码的话,那么词序并不十分重要。看一下一个短句的所有词序结果:

from itertools import permutations#原句:Good morning Tom
print(list(" ".join(combo) for combo in permutations("Good morning Tim!".split(),3)))

可以看到,3个单词就可以组成6种不同顺序的句子。

现在,如果试图孤立的解释这些字符串中的每一个,那么可能会得出轮,即这些字符串可能都有相似的意图或含义。

我们再用一个更长、更复杂的短语来尝试一下,这是一条逻辑语句,其中词的顺序非常重要:

s="""
Find textbooks with titles containing 'NLP',
or 'natural' and 'language', or
'computational' and 'linguistics'.
"""
print(len(s.split()))
print(np.arange(1,12+1).prod())

可以看到,当有14个单词,不同的排列方式会有479001600种。很明显,词序所包含的逻辑对任何希望正确回复的机器来说都很重要。尽管普通的问候语通常不会因为词袋处理而造成混淆,但如果把更复杂的语句放入词袋,就会丢失大部分意思。就像自然语言查询一样,词袋并不是处理数据库查询的最佳方式。

无论语句是用形式化的编程语言(比如SQL)编写的,还是用非形式化的自然语言(如英文)编写的,当语句要表达事物之间的逻辑关系时,词序和语法都非常重要。这就是计算机语言依赖严格的语法和句法规则分析器的原因。幸运的是,自然语言句法树分析器取得了一些最新进展,使得从自然语言中提取出语法和逻辑关系变得可能,并且可以达到显著的准确率(90%以上)。

就像上面有关的问候语的case一样,即使一条语句的逻辑解释并不依赖词序,有时关注词序也可以得到一些十分微妙的相关意义的暗示,这些意义可以辅助更深层次的回复。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/405460.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

电脑硬盘坏了怎么恢复数据?

在数字化时代,电脑硬盘作为存储核心,承载着我们的工作文档、学习资料、家庭照片以及无数珍贵的回忆。然而,硬盘作为机械设备,也有其寿命和脆弱性,一旦出现故障,数据恢复便成为了一个紧迫而棘手的问题。本文…

Centos7 message日志因dockerd、kubelet、warpdrive、containerd等应用迅速增长

问题:公司服务器在部署一套业务后,message日志记录大量的dockerd、kubelet、warpdrive、containerd应用日志,每天增加2G大小的日志 解决方案: 前期吐槽下:发现某个帖子,需要会员或者花钱才能看&#xff0c…

AfuseKt v1.3.5 — 打造自己的视频库,可刮削

AfuseKt是一款功能全面的安卓视频播放器,支持从阿里云盘、Alist、WebDAV、Emby到Jellyfin等多个平台直接播放视频。注册简单,一次邮箱登记即可畅享所有功能,包括自动刮削和海报墙展示。无论你是电影迷还是系列剧的忠实粉丝,AfuseK…

Elasticsearch-关键词随机查询(8.x)

目录 一、查询语句 二、Java代码实现 基础介绍: ES自定义评分机制:function_score查询详解-阿里云开发者社区ES自定义评分机制:function_score查询详解https://developer.aliyun.com/article/1054571 开发版本详见:Elasticsearch-经纬度查询(8.x-半径…

npm安装时一直在idealTree:npm: sill idealTree buildDeps卡住不动解决方法

npm安装xmysql时一直idealTree:npm: sill idealTree buildDeps卡住不动 问题解决,如下图所示 解决方法: 1、查看.npmrc位置,并去目录中删掉.npmrc文件 --在cmd(DOS页面)界面执行下述指令,可查看 .npmrc 文…

数学建模起步感受(赛前15天)

0基础直接上手数模,因为大一!年轻就是无所畏惧!开个玩笑,因为数模比赛比一年少一年… 抱着不打也是浪费的态度,我开始着手准备 首先python啥也不会,知道有元组这玩意… 仅仅在刷软考题的时候遇到python选择…

单域名SSL证书申请三步法

申请单域名SSL证书,确保您的网站安全可信,只需简单三步: 选择证书类型与提供商:首先,确定您需要的单域名SSL证书类型,如DV(域名验证)证书。接着,选择一个信誉良好的证书提…

[003].第4节:RabbitMQ环境搭建

我的后端学习大纲 RabbitMQ学习大纲 1.rpm包方式搭建: 1.1.搭建RabbitMQ单体架构: 1.MQ下载地址2.这里是提前下载好后上传安装包到服务器得opt目录下: 3.安装MQ需要先有Erlang语言环境,安装文件的Linux命令(分别按照以下顺序安装…

喝酒上头的原因是什么?

酒精进入人体后,会被依次分解代谢成乙醛、乙酸,进而分解成二氧化碳和水,然后排出体外,这一代谢过程主要是依靠肝脏来进行的。如果代谢过程存在问题,那很有可能就会出现“上头”等不适症状。具体来说,主要与…

C++ 设计模式——简单工厂模式

简单工厂模式 简单工厂模式主要组成部分代码实现简单工厂模式模式的 UML 图简单工厂模式 UML 图解析优点和缺点适用场景 简单工厂模式 简单工厂模式是一种创建型设计模式,通过一个工厂类来负责对象的实例。这种模式将对象创建的细节封装在工厂类中,客户…

CAN通讯接口 8路电压电流模拟量采集模块DAM-C3054P

简介: DAM-C3054P为8路差分模拟量采集模块,16位AD,CAN通讯接口,支持CAN2.0A标准帧格式,支持CAN-OPEN协议。配备良好的人机交互界面,使用方便,性能稳定。 产品图片及尺寸: 指标参数…

2024网络安全学习路线,最全保姆级教程,学完直接拿捏!

关键词: 网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊,学习网络安全方向通常会有哪些问题 前排提示:文末有CSDN独家网络安全资料包! 1、打基础时间太长 学基础花费很长时间,光语言都有…

机器学习|什么是梯度下降(小白向)|探寻最优解之路

文章目录 前言一、什么是梯度下降?二、梯度下降法一般步骤1.确定一个小目标——预测函数2.找到差距——代价函数3.明确搜索方向——梯度计算4.一步要走多远?——学习率 三、梯度下降的分类批量梯度下降(Batch Gradient Descent)随…

Java语言程序设计基础篇_编程练习题***16.31(游戏:四子连)

目录 题目:***16.31(游戏:四子连) 习题思路 代码示例 结果展示 题目:***16.31(游戏:四子连) 编程练习题8.20让两个玩家在控制台上可以玩四子连的游戏。为这个程序重写一个GUI版本…

Catf1ag CTF Web(八)

前言 Catf1agCTF 是一个面向所有CTF(Capture The Flag)爱好者的综合训练平台,尤其适合新手学习和提升技能 。该平台由catf1ag团队打造,拥有超过200个原创题目,题目设计注重知识点的掌握,旨在帮助新手掌握C…

数据结构----队列

1 什么是队列? 只允许在两端进行插入和删除操作的线性表,在队尾插入,在队头删除 插入的一端,被称为"队尾",删除的一端被称为"队头" 在队列操作过程中,为了提高效率&#xff0…

开源通用验证码识别OCR —— DdddOcr 源码赏析(一)

文章目录 [toc] 前言DdddOcr环境准备安装DdddOcr使用示例 源码分析实例化DdddOcr实例化过程 分类识别分类识别过程 未完待续 前言 DdddOcr 源码赏析 DdddOcr DdddOcr是开源的通用验证码识别OCR 官方传送门 环境准备 安装DdddOcr pip install ddddocr使用示例 示例图片如…

Java语言程序设计——篇十五(3)

🌿🌿🌿跟随博主脚步,从这里开始→博主主页🌿🌿🌿 欢迎大家:这里是我的学习笔记、总结知识的地方,喜欢的话请三连,有问题可以私信🌳🌳&…

450nm 高功率蓝光激光模组使用多长时间需要更换

450nm蓝光激光模组以其独特的波长特性和高功率输出,成为了市场上备受瞩目的产品。然而,对于用户而言,了解这类高功率激光模组的使用寿命及何时需要更换,是确保工作效率和设备安全性的重要环节。本文将带大家了解450nm 高功率蓝光激…

使用钉群发送告警通知

创建钉群,添加机器人 创建群 添加机器人并设置信息 需要注意的是设置“安全设置”时如果使用自定义关键词方式,那设置的内容必须要包含告警消息的内容 代码 模拟http请求发送通知 /*** param content 消息内容* param webhook 设置告警通知的群中机器…