一、自然语言处理(新手上路)

目录

  • 前言
  • 1. 自然语言与编程语言
  • 2. 自然语言处理层次
    • 2.1 语音、图像和文本
    • 2.2 中文分词、词性标注和命名实体识别
    • 2.3 信息抽取
    • 2.4 文本分类与文本聚类
    • 2.5 句法分析
    • 2.6 语义分析与篇章分析
    • 2.7 其它高级任务
  • 3. NLP发展历史
  • 4. 机器学习
  • 5. 语料库


前言

自然语言处理(Natural Language Processing,NLP)是一门融合了计算机科学、人工智能以及语言学的交叉学科,这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标——理解人类语言或人工智能。

在这里插入图片描述


1. 自然语言与编程语言

  1. 词汇量
  • C语言32个关键字
  • Java语言有50个关键字
  1. 结构化

自然语言是非结构化的,而编程语言是结构化的。

class Company(object):def __init__(self, founder, logo) -> None:self.founder = founderself.logo = logoapple = Company(founder='乔布斯', logo='apple')
  1. 歧义性

他说:“她这个人真有意思(funny)。”她说:“他这个人怪有意思的(funny)。”于是人们以为他们有了意思(wish),并让他向她意思意思(express)。他火了:“我根本没有那个意思(thought)!”她也生气了:“你们这么说是什么意思(intention)?”事后有人说:“真有意思(funny)。”也有人说:“真没意思(nonsense)”。(原文见《生活报》1994.11.13.第六版)[吴尉天,1999]
4. 容错性
在这里插入图片描述

  1. 易变性
    在这里插入图片描述

  2. 简略性
    由于说话速度和听话速度、书写速度和阅读速度的限制,人类语言往往简洁、干练。我们经常省略大量背景知识或常识。

  • 比如我们会对朋友说“老地方见",而不必指出“老地方”在哪里。
  • 对于机构名称,我们经常使用简称,比如“工行”“地税局”,假定对方熟悉该简称。
  • 如果上文提出一个对象作为话题,则下文经常使用代词。
  • 在连续的新闻报道或者一本书的某一页中,并不需要重复前面的事实,而假定读者已经熟知。

2. 自然语言处理层次

在这里插入图片描述

2.1 语音、图像和文本

自然语言处理系统的输入源一共有三个,即语音、图像与文本。

  • 通过语音识别将语音转化为文本
  • 通过光学字符将图像转化为文本

2.2 中文分词、词性标注和命名实体识别

这3个任务都是围绕词语进行的分析,所以统称词法分析
词法分析的主要任务:

  • 将文本分隔为有意义的词语(中文分词)
  • 确定每个词语的类别和浅层的歧义消除(词性标注)
  • 并且识别出一些较长的专有名词(命名实体识别)。

2.3 信息抽取

经过词法分析后,文本已经呈现出部分结构化的趋势。
根据这些单词和标签抽取一部分有用的信息

  • 关键词
  • 实体抽取
  • 关系抽取

2.4 文本分类与文本聚类

文本分类:想知道一段话是褒义还是贬义的,判断一封邮件是否是垃圾邮件,想把许多文档分门别类地整理一下。
文本聚类:只想把相似的文本归档到一起,或者排除重复的文档,而不关心具体类别。

2.5 句法分析

得到句子的主谓宾结构。
在这里插入图片描述

2.6 语义分析与篇章分析

  • 词义消歧(确定一个词在语境中的含义,而不是简单的词性)
  • 语义角色标注(标注中句子中的谓语与其它部分的关系)
  • 语义依存分析(分析句子中词语之间的语义关系)
  • 指代消解等
    在这里插入图片描述
    在这里插入图片描述

2.7 其它高级任务

  • 自动问答
  • 自动摘要
  • 机器翻译

3. NLP发展历史

在这里插入图片描述

4. 机器学习

3在这里插入图片描述

5. 语料库

语料库作为自然语言处理领域中的数据集,是我们教机器理解语言不可或缺的习题集。
中文分词语料库:由人工正确切分后的句子集合
在2005年的第二届国际中文分词比赛中,曾经公开过约1个月份的语料。其中的一句样例为:
          先有通货膨胀干扰,后有通货紧缩叫板。

词性标注语料库:切分并为每个词语指定一个词性的语料
命名实体识别语料库:人工标注了文本内部制作者关心的实体名词以及实体类别

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52280.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

持有美签,加拿大签证申请攻略(内含图文)

每年5、6月,加拿大会举办Collision科技峰会,作为北美发展最快的技术大会,“Collision”通常会汇集了全球科技产业的领导者与创新公司,更有上百家新兴及初创公司与来自世界各地的投资者见面会谈。但是大家都知道美签和加签都很难申…

一文开启自然语言处理之旅

1. 自然语言处理简介 自然语言处理 (Natural Language Processing, NLP) 是人工智能领域最火热的研究方向之一,NLP 为计算机真正理解人类语言提供了基础。NLP 已成为现代计算机程序系统的重要组成部分,广泛用于搜索引擎、语音助手、文档处理等应用中。机…

适用于NLP自然语言处理的Python:使用Facebook FastText库

在本文中,我们将研究FastText,它是用于单词嵌入和文本分类的另一个极其有用的模块。 最近我们被客户要求撰写关于NLP自然语言处理的研究报告,包括一些图形和统计输出。 在本文中,我们将简要探讨FastText库。本文分为两个部分。…

足球赛事分析

个人项目根据需求对这个 https://www.dszuqiu.com/ 足球赛事网站的比赛数据进行采集计算格式化处理,同时要满足支持手动设置翻页、指定分钟球队赛事信息、采集速度等 ! 采集比赛结束球队赛事详情页面中 [四合一数据和现场数据] 计算逻辑比较复杂,需结合页面对四合一数据中让球&…

企业微信创建应用和开发应用的相关问题,获取外部联系人信息,聊天工具栏配置

企业微信创建应用,h5页面,获取外部联系人信息,聊天工具栏 创建 进入企业微信后台管理,应用管理 》应用 》自建 -> 创建应用 可见范围是该应用授权可见部门(人员) 配置 1、点开应用,配置…

脱不下孔乙己的长衫,现代的年轻人该怎么办?

“如果我没读过书,我还可以做别的工作,可我偏偏读过书” “学历本该是我的敲门砖,却成了我脱不下的长衫。” 最近,“脱下孔乙己的长衫”在网上火了。在鲁迅的原著小说中,孔乙己属于知识阶级(长衫客&#…

校招污点公司名单火了/ 马斯克与库克误会解除/ 苹果M2 Max跑分泄露…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是12月1日星期 快来跟日报君看看,今天科技圈发生了哪些新鲜事~ 马斯克与库克误会解除 马斯克与苹果的闹剧以和解告终。 当地时间周三下午,马斯克在推特上发布了一段苹果…

学习记录Day002

1.标准化 标准化的培养主要从以下几个方面培养: 规范周报:写好每一次周报就是为以后写小作文打下良好基础。规范代码:规范代码能够提升代码可读性,好的代码习惯能方便自己和他人查阅。小论文:写好小作文就能为未来写大…

高校就业管理系统设计与实现

一,项目简介 在如今社会上,关于信息上面的处理,没有任何一个企业或者个人会忽视,如何让信息急速传递,并且归档储存查询,采用之前的纸张记录模式已经不符合当前使用要求了。所以,对高校就业信息…

双色球号概率预知程序

说来好笑&#xff0c;自己怎么会抽一个小时做这么一个小程序&#xff0c;可能我是太喜欢买彩票但是老中不了的缘故吧。不过老实说这个程序也帮不了你中双色球&#xff0c;娱乐而已。 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.0 Transitional//EN"> <meta…

Python数据分析:双色球的深度学习预测

双色球是福利彩票的一种玩法&#xff0c;已经卖了有很多年。之前在支付宝上app可以买的&#xff0c;每天2块钱很有益身心健康&#xff0c;比LOL有积极意义。对于双色球这门游戏&#xff0c;刚开始买的时候是纯粹靠感觉&#xff0c;后来百度又看到了百度预测&#xff08;虽然尼玛…

.NET Core 使用 ImageSharp 生成图片

前言 ImageSharp是对.NET Core平台扩展的一个图像处理方案&#xff0c;以往网上的案例多以生成文字及画出简单图形、验证码等方式进行探讨和实践。 分享一下所在公司项目的实际应用案例&#xff0c;导出微信二维码图片&#xff0c;圆形头像等等。 一、源码获取 Git项目地址…

高清Apriltag图片生成和制作

近期需要用到Apriltag图像&#xff0c;作者源码给的图像像素太差&#xff0c;无法满足需要。 国内网站相关资料太少&#xff0c;有的作者还要收费&#xff0c;不理解。本来就是开源的东西。本文详细说明如何生成&#xff0c;并免费附上tag36h11 全系列图片下载链接。 1。 生成…

微信小程序生成海报图片导出相册

前言 小程序内通过静态模板和样式绘制 canvas &#xff0c;导出图片&#xff0c;可用于生成分享图等场景 一、效果预览 二、使用步骤 1.安装引入wxml-to-canvas Step1.运行小程序npm安装命令 npm install --save wxml-to-canvasStep2.JSON 组件声明 {"usingComponents…

chatgpt赋能python:Python中打开图片的方法

Python中打开图片的方法 Python是一种高级编程语言&#xff0c;非常流行和使用&#xff0c;因为它具有简单易用、可读性强、适合各种领域等优点。其中&#xff0c;打开图片也是Python中一个非常常见的操作。 在Python中&#xff0c;可以通过几行代码轻松实现打开图片的功能。…

三分钟4行命令构建chatgpt webapp,支持高并发以及上下文对话功能(2)

个人主页:https://yang1he.gitee.io 干货会越来越多的&#xff0c;欢迎来玩 三分钟4行命令构建chatgpt webapp,支持高并发以及上下文对话功能&#xff08;2&#xff09; version2 version1介绍 上下文对话清除历史信息内网公开 version2新增 重复信息自动去重高并发&#xff0c…

客户端突如其来的“白屏”等待该如何解决?

简介&#xff1a;一起由离线包重构引起的“白屏”等待现象的排查和解决案例 ——本文选自《阿里云SRE技术期刊》2021年02月刊 移动端的混合架构模式给 App 开发带来了崭新的空间&#xff0c;通过 H5 构建的业务模块可以实现高效快速的版本迭代&#xff0c;满足多样化的业务需求…

Postman打开一直加载白屏

问题&#xff1a;以前用的好好的&#xff0c;突然有天白屏打不来&#xff0c;一直加载中无响应 1、上网搜教程&#xff0c;环境变量也设置了POSTMAN_DISABLE_GPU、true 2、%appdata%目录下的postman文件也删除了&#xff08;postman未登录的慎删&#xff0c;可以搜教程应该可以…

微信小游戏可视化开发工具

我们来自微信小游戏的一个小团队&#xff0c;我们希望每个人都可以创建自己的小游戏&#xff0c;分享自己的创意&#xff0c;所以我们实现了一个门槛极低的游戏开发工具&#xff0c;在设计的时候我们尽量注意概念简单同时又可以实现各种类型的游戏&#xff0c;当前还是内测阶段…

基于tkinter制作的一个策略小游戏

目录 前言 登录界面 主界面 宣政殿 地图 吏部 兵部 户部 刑部 工部 礼部 御书房 后宫 宗人府 御马监 锦衣卫 司礼监 京城 后记 前言 前年本科毕业时&#xff0c;利用暑假的时间学习了一点tkinter&#xff0c;当时比较痴迷《君成录》、《皇帝成长计划》等策略养成…