自然语言处理(4)——语料库和语言知识库

NLP学习笔记(4)——语料库和语言知识库

  • 1. 基础知识
  • 2.语料库技术的发展
    • 第一个阶段:早期,20世纪五十年代中期之前
    • 二个阶段:沉寂时期,1957-20世纪八十年代初
    • 第三个阶段:复苏与发展时期,20世纪八十年代以后
  • 3.国内语料库的研究状况
  • 4. 语料库的类型
    • (a)按照其内容构成和目的进行划分:
    • (b)按语言种类划分
    • 其他信息
  • 5.重点:语料库建设中存在的问题
    • 5.1对于语料库的设计,需要考虑的问题:
    • 5.2 汉语语料库开发中存在的问题
  • 6.介绍一些典型语料库
  • 7.词汇知识库
    • 7.1 WordNet
    • 7.2 HowNet(知网)
    • 7.3 概念层次网络

1. 基础知识

在这里插入图片描述
对于预先准备的知识材料,分为语言数据库(语料库)和知识库两种。
对于语言数据句库:主要是大规模的语言数据,难点在于模型参数训练与评测标准的设置;
对于知识库:包括词汇语义库,词法、句法规则库,常识库等等


语料库语言学的定义:基于语料库进行语言学研究

下面介绍其他几种定义,可能更有益于对其理解:

  • 根据篇章结构对语言的研究称为语料库语言学
  • 基于现实生活中语言运用的实例进行的语言研究称为语料库语言学
  • 以语料为语言描写的起点或以语料为验证有关语言的假说的方法称为语料库语言学。

关于语料库语言学研究的内容:

  • 语料库的建设与编纂
  • 语料库的加工和管理技术
  • 语料库的使用

2.语料库技术的发展

掌握程度:分清三个阶段的各自时间节点,以及判断其低谷期、复苏的特征及原因

第一个阶段:早期,20世纪五十年代中期之前

在这里插入图片描述

二个阶段:沉寂时期,1957-20世纪八十年代初

沉寂的原因大概是由于句法理论的兴起,即NLP先验知识运用的另一分支,知识库的发展
在这里插入图片描述

第三个阶段:复苏与发展时期,20世纪八十年代以后

(1)其复苏的特征有二:

  • 第一是第二代语料库相继建成
  • 第二是基于语料库的研究项目增多
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    (2)其复苏的原因同样有二:
    (i)首先,得益于计算机的迅速发展,计算能力与速度的增强使得语料库技术有了用武之地
    (ii)其次,转换 生成语言学派对语料库的批判不都正确(如指责计算机分析语料是伪技术),有的是片面的甚至是错误的(如对语料数据价值的否定)

3.国内语料库的研究状况

掌握情况要求:了解现状即可,代表性内容要进行记忆
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4. 语料库的类型

按照不同的标准,可以将语料库进行许多种划分

(a)按照其内容构成和目的进行划分:

(1)异质的:仅进行最简单的语料收集方法,没有事先规定和选材原则
(2)同质的:与上一条相反,如美国TIPSTER项目只收集军事方面的文本内容
(3)系统的:充分考虑语料的动态和静态问题、代表性和平衡问题以及语料库的规模等问题
(4)专用的:如北美的人文科学语料库

(b)按语言种类划分

(1)单语语料库
(2)双语的或多语的语料库
对于非单语的语料库,要考虑是否要保证篇章对齐、句子对齐、结构对齐等问题

其他信息

(1)关于如何区分生语料和熟语料的方法:
看语料是否被标注了:
熟语料的特征——具有词性标注;有句法结构信息标注(树库);有语义信息标注
(2)对于平衡语料库,着重考虑了语料的代表性和平衡性
掌握要求为:对平衡语料库采集的规则要了解,可能考察选择判断

语料库采集的七项原则:
-1-语料的真实性
-2-可靠性
-3-科学性
-4-代表性
-5-权威性
-6-分布性
-7-流通性

其中,语料的分布性还可以考虑语料的科学领域分布、地域分布、时间分布和语体分布

(3)一个好像不是很重要的问题:
在这里插入图片描述
(4)关于平行语料库
其两种含义:

  • 第一种是在同一种语言的语料上的平行。其平行性表现为语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的。
    举个例子:“国际英语语料库”,共有20个平行的子语料库,分别来自以英语为母语或官方语言和主要语言的国家,如英国、美国、加拿大、澳大利亚、新西兰等。建库的目的是对不同国家的英语进行对比研究。
  • 第二种是指在两种或多种语言之间的平行采样和加工。例如,机器翻译中的双语对齐语料库

(5)比较重要:共时语料库和历时语料库
共时语料库:是为了对语言进行共时(同一时段)研究而建立的语料库。研究一个共时时空下的元素与元素之间的关系
历时语料库:是为了对语言进行历时研究而建立的语料库。研究一个历时切面中元素与元素关系的演化

判断是否为历时语料库的4条规则(要求可以完成选判
-1-是否动态:语料库必须是开放的、动态的(基础)
-2-文本是否具有量化的流通度属性:所有的语料都应该来自于大众传媒,具有与传媒特色相应的流通度属性。其量化的属性值也是动态的(随时间与条件、背景的变化,其流通度属性存在差异)(来源存在流通度属性)
-3-深加工是否基于动态的加工方法:随语料库的动态变化采集,并进行动态地加工(加工过程的动态性)
-4-是否取得动态的加工结果:语料的加工结果也应是动态的和历时的(加工结果的动态性)

5.重点:语料库建设中存在的问题

重点章节

5.1对于语料库的设计,需要考虑的问题:

(1)动态与静态:
在这里插入图片描述
(2)代表性和平衡性:
一个语料库具有代表性,是指在该语料库上获得的分析结果可以概括成为这种语言整体或其指定部分的特征。
(3)规模:
在这里插入图片描述

(4)语料库的管理和维护

在这里插入图片描述

5.2 汉语语料库开发中存在的问题

(1)语料库建设的规范问题

在这里插入图片描述

需要考虑或保证的是:粉刺标准是否已经确定和统一;词类标记集被普遍采用和遵循;文本属性规范如何体现
(2)产权保护和国家语料库建设问题
在这里插入图片描述

6.介绍一些典型语料库

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

对于宾夕法尼亚大学树库的扩展:
自PropBank开始,出现语义角色标注

一个例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

自PropBank开始,出现语义角色标注
在这里插入图片描述
自PropBank开始,语料库中开始出现语义角色标注

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Nombank专注于标注树库中名次的词义和相关的论元信息;
而原PropBank标注的是句子的语法结构,PropBank拓展中的目标是对原树库中的句法节点标注上特定的论元标记。

在这里插入图片描述
对于NomBank中的中文属性库:
在这里插入图片描述

比较重要的是,针对语篇的UPenn语篇树库。
综合PropBank针对于句子的语法结构,NomBank标注树库中名词的词义和相关论元信息,UPenn则标注语篇结构信息

在这里插入图片描述
在这里插入图片描述
上图左侧是一片完整的文档,在这篇文档中有若干个篇章关系。右侧则罗列出了该文档第一段的关系。下面对其关系进行分析。
关系1、2为隐式关系(相关类型包括显式和隐式),关系1的参数Arg1与Arg2的范围分别标在左图的红色、蓝色方框中,其功能类型的判断为扩展类型。
对于关系三,是一个显式的关系,其关联词(特属于显式的关系Explicit)为“其中”,功能类型是扩展类型。

在上文中的例子中,我们可以发现,PDTB(Penn Discourse Tree Bank)风格下的标注体系允许两个篇章关系的文本之间存在覆盖、嵌套和交叉。

关于其对应的汉语篇章树库(CDTB)1.0
在这里插入图片描述
中英篇章树库对比(要求了解即可)
在这里插入图片描述
可以观察到,中文中的隐式关系比例要高于英文,其关联词没有明确的定义,且组合关联词的现象较多,用法灵活。中文中(CDTB)的Argument是根据语义定义的,其范围可以是某个短语也可以跨越几个段落,中文中的标点,(比较典型的如逗号)往往具有篇章关系指示功能。
对于英文(PDTB)是依据位置定义的,显式关系中在句法上与关联词相连的为Arg2,其余部分定义为Arg1;非显式关系中的前依据定义为Arg1,后一句为Arg2.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
PDT的三个层次

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

7.词汇知识库

关于知识库,主要分为两种,WordNet与HowNet

需要掌握
关于WordNet,有哪四种关系
关于HowNet,是什么样的关系,关系为单向还是双向的(不同关系的单、双向不同),关系中有多少种类型


7.1 WordNet

在这里插入图片描述
在这里插入图片描述

WordNet是按语义关系来组织的,故而WordNet之中的关系表现为语义关系。
关于WordNet的四种语义关系:

  • 同义关系
  • 反义关系
  • 上下位关系(从属/上属关系)
  • 部分关系(部分/整体关系)

关于WordNet的应用:
词汇消歧、语义推理、理解等
在这里插入图片描述
在这里插入图片描述

7.2 HowNet(知网)

比较重要
在这里插入图片描述
在这里插入图片描述

  • 关于知网的特色
    知网作为一个知识系统,名副其实地是一张网,其着力反映概念的共性和个性;同时还要反映概念之间 和概念的属性之间的各种关系
    在这里插入图片描述
  • 知网描述的关系:
    -1-上下位关系(与WordNet共有)
    -2-同义关系(与WordNet共有)
    -3-反义关系(与WordNet共有)
    -4-对义关系
    -5-部件-整体关系(与WordNet共有)
    -6-属性-宿主关系
    -7-材料-成品关系
    -8-施事/经验者/关系主体-事件关系(如“一生”、“雇主”)
    -9-受事/内容/领属物等-事件关系(如“患者”、“雇员”)
    -10-工具-事件关系(如“手表”、“计算机”)
    -11-场所-事件关系(如“银行”、“医院”)
    -12-时间-事件关系(如“假日”、“孕期”)
    -13-值-属性关系(如“蓝”、“慢”)
    -14-实体-值关系(如“矮子”、“傻瓜”)
    -15-事件-角色关系(由加角色名体现,如“购物”、“盗墓”)
    -16-相关关系(如“谷物”、“煤田”)

7.3 概念层次网络

(Hierarchical Network of Concepts,HNC)
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69811.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nltk——语料库

NLTK使用方法总结 NLTK(natural language toolkit)是一套基于python的自然语言处理工具集。 安装与功能描述 首先,打开终端安装nltk。 pip install nltk 打开Python终端并输入以下内容来安装 NLTK 包 import nltk nltk.download() 语言处理…

自然语言处理NLP(2)——统计语言模型、语料库

在上一部分中,我们已经了解了自然语言处理的基本知识:自然语言处理NLP(1)——概述。 在这一部分中,我们将简要介绍NLP领域的基本模型——语言模型,我们还将对自然语言处理的基础——语料库的概念进行介绍。…

一起来学自然语言处理----语料库和词汇资源

语料库和词汇资源 1、自然语言工具包(NLTK)2、获取文本语料1.语料库古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演说语料库标注文本语料库在其他语言的语料库语料库结构载入自己的语料库 2.条件频率分布理解条件频率分布使用双连词生成随机文…

【自然语言处理】浅谈语料库

文章目录 【自然语言处理】浅谈语料库前言一、浅谈语料库1、语料和语料库2、语料库语言学3、 建议语料库的意义 二、语料库深入了解1、语料库划分与种类2、语料库构建原则3、语料标注的优缺点 三、自然语言处理工具包:NLTK1、 了解NLTK2、 获取NLTK3、 Standford NL…

NLP浅谈语料库

NLP浅谈语料库 1. 浅谈语料库 1.1 语料和语料库 ​ 语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。 ​ 语料库一词在语言学上意指大量的文…

任正非谈成功秘诀:28年只对准一个城墙口冲锋

文/记者 赵东辉、李斌、刘诗平、蔡国兆、彭勇、何雨欣 任正非和华为公司,堪称当代商业史上的传奇。 1987年,年满43岁的任正非和5个同伴集资2.1万元成立华为公司,利用两台万用表加一台示波器,在深圳的一个“烂棚棚”里起…

AI流量监控,哪些AI应用正在迅速崛起?

“ 通过对网站数据分析工具SimilarWeb的数据监控,观察AI相关站点的网站访问量变化,来发掘AI应用端的变化趋势,找到当下最火爆的AI应用。” AI网站访问量数据变化 访问量成长周冠军 LLamaIndex本周流量成长冠军是llamaindex.ai,周访…

chatgpt赋能python:Python不报错,为什么还是运行不了?

Python不报错,为什么还是运行不了? 如果你是一位有着10年 Python 编程经验的工程师,你很可能会遇到这样的问题:代码没有报错,但运行时却出现了一些奇怪的问题。 在这篇文章中,我们将着重探讨这个问题&…

CTFHub | 前端验证

0x00 前言 CTFHub 专注网络安全、信息安全、白帽子技术的在线学习,实训平台。提供优质的赛事及学习服务,拥有完善的题目环境及配套 writeup ,降低 CTF 学习入门门槛,快速帮助选手成长,跟随主流比赛潮流。 0x01 题目描述…

chatgpt赋能python:Python绕过验证码分析

Python绕过验证码分析 介绍 验证码(CAPTCHA)是一种常见的人机验证机制,用于保护网站不被自动化机器人恶意攻击。但是,对于一些恶意攻击者而言,绕过这种验证机制是他们完成攻击的必由之路。Python是一种强大的编程语言…

如何区分GPT3.5和4?

切换模型 前两天申请的GPT 4的API调用权限终于申请下来了。 这两天我也是抓紧开发,让自己搭建的国内网站(aichatroom.cn)可以快速支持上使用GPT 4。 GPT 3.5和GPT4的区别 GPT-3.5 和 GPT-4 分别代表了 OpenAI 发布的两个不同版本的自然语言处…

2021年度泰晤士全球大学【计算机科学排名】公布

转载于 青塔 泰晤士世界大学学科排名(THE World University Rankings by Subject)涵盖工程技术、理学、生命科学、计算机科学、教育学、临床前期与临床健康、商业与经济、法学、社会科学、艺术与人文、心理学等11个学科领域。 学科排名采用与世界大学排名…

再见正则表达式!这次彻底告别手写!

这篇文章的目的是让你能得到完美的正则表达式,而且还不用自己拼。 说到正则表达式,一直是令我头疼的问题,这家伙一般时候用不到,等用到的时候发现它的规则是一点儿也记不住,\d表示一个数字,\s表示包括下划…

软银成功收购波士顿动力,收获顶尖的机器人技术

波士顿动力(Boston Dynamics)在机器人领域里属于顶尖的研发公司,而这家在行业内取得了巨大成功的公司,却被Alphabet(谷歌母公司)整体出售给日本软银,并且与Boston Dynamics一起被出售的是日本本土的一家机器人公司Scha…

深度学习经典入门项目—波士顿房价预测

目录 房价预测--线性回归数据处理数据形状变换数据集划分数据归一化处理housing.data数据格式 模型设计线性回归模型设计 训练配置训练过程保存并测试模型保存模型测试模型 房价预测–线性回归 波士顿房价预测数据集是经典的机器学习、深度学习入门的数据集。下面我们用这个数…

本周AI热点回顾:波士顿动力机器狗去新西兰放羊了、微软WSL将支持GPU、ERNIE-GEN刷新SOTA

01 波士顿动力机器狗去新西兰放羊了!网友:不努力连狗都不如 波士顿动力的科学家可能做梦也没想到,他们研制出来的Spot机械狗,刚刚商用,就被训练来放羊了。 新西兰,一个因为牛奶和羊毛被中国人熟知的国家&am…

机器学习项目实践——波士顿房价预测

基于线性回归预测波士顿房价 摘要:分类和回归属于机器学习领域有监督学习算法的两种方法,有监督学习是通过已有的训练样本去训练得到一个模型,再使用这个模型将所有的输入映射到相应的输出,若输出结果是离散型称为分类&#xff0…

起底网红机器人波士顿动力

关注网易智能,聚焦AI大事件,读懂下一个大时代! 这家“网红”机器人公司又火了。 最近,接连发布的两条波士顿动力机器人的最新视频让不少人感到惊讶,一段是发布于今年10月11日标题为“跑酷阿特拉斯”的视频,…

重磅干货!揭秘波士顿动力背后的专利技术

【导读】本文从波士顿动力背后申请的专利入手,从动力系统、步态分析,详细探讨了波士顿动力机器人背后的技术实现。 波士顿动力四足机器人的发展历程(前世今身) 相比于轮式或履带机器人,波士顿足式机器人具有更强的地形适应能力,身体十分灵活,可以在各种崎岖不平的地面行…

机器学习实战演练 波士顿房价预测与模型评估

介绍数据集: 本数据集共有506个样本,每个样本有13个特征及标签MEDV 特征信息: CRIM 城镇人均犯罪率 ZN 占地面积超过2.5万平方英尺的住宅用地比例 INDUS 城镇非零售业务地区的比例 CHAS 查尔斯河虚拟变量 ( 1 如果土地在河边;否则…