NLP浅谈语料库

NLP浅谈语料库

1. 浅谈语料库

1.1 语料和语料库

​ 语料通常指在统计自然语言处理中实际上不可能观测到大规模的语言实例。所以人们简单地用文本作为替代,并把文本中的上下文关系作为现实世界中语言的上下文关系的替代品。

​ 语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记。其具备三个显著的特点:

  • 语料库中存放的是在语言的实际使用中真实出现过的语言材料。
  • 语料库以电子计算机为载体承载语言知识的基础资源,但并不等于语言知识。
  • 真实材料需要经过加工(分析和处理),才能成为有用的资源

1.2 语料库语言学

​ 语料库语言学的研究范畴:主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言教学、语言定量分析、词汇研究、词语搭配研究、词典编制、语法研究、语言文化研究、法律语言研究、作品风格分析、自然语言理解、机器翻译等方面的应用。

1.3 建立语料库的意义

​ 语料库是为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。

2. 语料库深入了解

2.1 语料库划分与种类

冯志伟教授语料库划分比较有影响力且在学术上认可度比较高:

  • 按语料选取的时间划分:可分为历时语料库(diachronic corpus)和共时语料库(syn-chronic corpus)。
  • 按语料的加工深度划分,可分为标注语料库(annotated corpus)和非标注语料库(non- annotated corpus)。
  • 按语料库的结构划分,可分为平衡结构语料库(balance structure corpus)和自然随机结构的语料库(random structure corpus)。
  • 按语料库的用途划分,可分为通用语料库(general corpus)和专用语料库(specialized corpus)。
  • 按语料库的表达形式划分,可分为口语语料库(spoken corpus)和文本语料库(textcorpus)。
  • 按语料库中语料的语种划分,可分为单语种语料库(monolingual corpora)和多语种语料库(multilingual corpora)。多语种语料库又可以再分为比较语料库(comparable corpora)和平行语料库(parallel corpora)。比较语料库的目的侧重于特定语言现象的对比,而平行语料库的目的侧重于获取对应的翻译实例。
  • 按语料库的动态更新程度划分,可分为参考语料库(reference corpus)和监控语料库(monitor corpus)。参考语料库原则上不做动态更新,而监控语料库则需要不断地进行动态更新。

2.2 语料库构建原则

语料库应该具有代表性、结构性、平衡性、规模性、元数据,各个原则具体介绍如下:

  • 代表性:在应用领域中,不是根据量而划分是否是语料库,而是在一定的抽样框架范围内采集而来的,并且能在特定的抽样框架内做到代表性和普遍性。
  • 结构性:有目的地收集语料的集合,必须以电子形式存在,计算机可读的语料集合结构性体现在语料库中语料记录的代码、元数据项、数据类型、数据宽度、取值范围、完整性约束。
  • 平衡性:主要体现在平缓因子——学科、年代、文体、地域、登载语料的媒体、使用者的年龄、性别、文化背景、阅历、预料用途(私信/广告等),根据实际情况选择其中一个或者几个重要的指标作为平衡因子,最常见的平衡因子有学科、年代、文体、地域等。
  • 规模性:大规模的语料对语言研究特别是对自然语言研究处理很有用,但是随着语料库的增大,垃圾语料越来越多,语料达到一定规模以后,语料库功能不能随之增长,语料库规模应根据实际情况而定。
  • 元数据:元数据对于研究语料库有着重要的意义,我们可以通过元数据了解语料的时间、地域、作者、文本信息等;构建不同的子语料库;对不同的子语料对比;记录语料知识版权、加工信息、管理信息等。

注意:汉语词与词之间没有空隙,不便于计算机处理,一般需要进行切词和词性标注。

2.3 语料标注的优缺点

  • 优点:研究方便。可重用、功能多样、分析清晰。
  • 缺点:语料不客观(手工标注准确率高而一致性差,自动或者半自动标注一致性高而准确率差)、标注不一致、准确率低。

3. 自然语言处理工具包:NLTK

3.1 了解NLTK

​ NLTK(Natural language Toolkit):自然语言工具包,Python 编程语言实现的统计自然语言处理工具。它是由宾夕法尼亚大学计算机和信息科学的史蒂芬·伯德和爱德华·洛珀编写的。NLTK 支持NLP 研究和教学相关的领域,其收集的大量公开数据集、模型上提供了全面易用的接口,涵盖了分词、词性标注(Part-of-Speech tag,POS-tag)、命名实体识别(NamedEntity Recognition,NER)、句法分析(Syntactic Parse) 等各项NLP 领域的功能。广泛应用在经验语言学、认知科学、人工智能、信息检索和机器学习。

3.2 获取NLTK

在这里插入图片描述

​ 执行exe 文件,会自动匹配到Python 安装路径,如果没有找到路径则说明NLTK 版本不正确,去官网选择正确版本号下载.
​ 获取NLTK链接:https://pypi.org/project/nltk/3.2.1/#files
​ 说明:NLTK 核心包主要包括如下:

​ ⊚ NLTK-Data:分析和处理语言的语料库。
​ ⊚ NumPy:科学计算库。
​ ⊚ Matplotlib:数据可视化2D 绘图库。
​ ⊚ NetworkX:存储和操作由节点和边组成的网络结构函数库。

4. 获取语料库

4.1 国内外著名语料库

  • 宾州大学语料库: https://www.ldc.upenn.edu/

4.2 英文语料库

  • 古滕堡语料库:http://www.gutenberg.org/
  • 语料库在线: http://www.aihanyu.org/cncorpus/index.aspx#P0

4.3 中文语料库

  • 搜狗实验室新闻| 互联网数据: http://www.sogou.com/labs/
  • 北京大学语言研究中心:http://ccl.pku.edu.cn/term.asp
  • 数据堂: http://www.datatang.com/
  • 中央研究院平衡语料库(https://www.sinica.edu.tw/SinicaCorpus):专门针对语言分析而设计的,每个文句都依词断开并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明。
  • LIVAC 汉语共时语料库:http://www.livac.org/index.php?lang=tc
  • 兰开斯特大学汉语平衡语料库: http://www.lancaster.ac.uk/fass/projects/corpus/
  • 兰开斯特——洛杉矶汉语口语语料库 :http://www.lancaster.ac.uk/fass/projects/corpus/
  • 语料库语言学在线:https://www.corpus4u.org/
  • 北京森林工作室汉语句义结构标注语料库:http://www.isclab.org.cn/csa/bfs-ctc.htm
  • 国家语委现代汉语语料库(http://corpus.zhonghuayuwen.org/index.aspx)
    现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000 万字,为分词和词性标注语料。
  • 古代汉语语料库(http://corpus.zhonghuayuwen.org/):网站现在增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。网站同时还提供了分词、词性标注软件,词频统计、字频统计软件。基于国家语委语料库的字频词频统计结果和发布
    的词表等进行建库,以供学习研究语言文字的同学和老师使用。
  • 《人民日报》标注语料库(https://blog.csdn.net/eaglet/article/details/1778995):《人民日报》标注语料库中一半的语料(1998 年上半年)共1300 万字,已经通过《人民日报》新闻信息中心公开并提供许可使用权。其中一个月的语料(1998 年1 月)近200 万字在互联网上公布,可自由下载。
  • 古汉语语料库(https://www.sinica.edu.tw/ch):古汉语语料库包含以下五个语料库—— 上古汉语、中古汉语(含大藏经)、近代汉语、出土文献、其他。部分数据取自史语所汉籍全文数据库,故两者间内容略有重叠。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。
  • 近代汉语标记语料库(https://www.sinica.edu.tw/Early_Mandarin):为应对汉语史研究需
    求而建构的语料库。目前语料库所搜集的语料已涵盖上古汉语(先秦至西汉)、中古汉语(东汉魏晋南北朝)、近代汉语(唐五代以后)大部分的重要语料,并陆续开放使用;在标记语料库方面,上古汉语及近代汉语都已有部分语料完成标注的工作,并视结果逐步提供上线检索。
  • 树图数据库(http://treebank.sinica.edu.tw/)
  • 搜文解字(http://words.sinica.edu.tw/):包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,以及直接链接到出处并阅读原文。
  • 文国寻宝记(https://www.sinica.edu.tw/wen):在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合。与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。
  • 汉籍电子文献(https://www.sinica.edu.tw/ch):包含整部25 史整部阮刻13经、超过2000 万字的台湾史料、1000 万字的大正藏及其他典籍。
  • 中国传媒大学文本语料库检索系统(http://ling.cuc.edu.cn/RawPub/)
  • 新词语研究资源库(http://ling.cuc.edu.cn/newword/)
  • 哈工大信息检索研究室对外共享语料库资源 :http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
    该语料库为汉英双语语料库,10 万对齐双语句对,文本书件格式,同义词词林扩展版,77343 条词语,秉承《同义词词林》的编撰风格。同时采用五级编码体系,多文档自动文摘语料库,40 个主题,文本书件格式,同一主题下是同一事件的不同报道。汉语依存树库,不带关系5 万句,带关系1 万句;LTML 化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264 句;已标注问题类型,LTML 化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库共211 篇。

参考链接

【自然语言处理】浅谈语料库

NLP语料库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/69802.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

任正非谈成功秘诀:28年只对准一个城墙口冲锋

文/记者 赵东辉、李斌、刘诗平、蔡国兆、彭勇、何雨欣 任正非和华为公司,堪称当代商业史上的传奇。 1987年,年满43岁的任正非和5个同伴集资2.1万元成立华为公司,利用两台万用表加一台示波器,在深圳的一个“烂棚棚”里起…

AI流量监控,哪些AI应用正在迅速崛起?

“ 通过对网站数据分析工具SimilarWeb的数据监控,观察AI相关站点的网站访问量变化,来发掘AI应用端的变化趋势,找到当下最火爆的AI应用。” AI网站访问量数据变化 访问量成长周冠军 LLamaIndex本周流量成长冠军是llamaindex.ai,周访…

chatgpt赋能python:Python不报错,为什么还是运行不了?

Python不报错,为什么还是运行不了? 如果你是一位有着10年 Python 编程经验的工程师,你很可能会遇到这样的问题:代码没有报错,但运行时却出现了一些奇怪的问题。 在这篇文章中,我们将着重探讨这个问题&…

CTFHub | 前端验证

0x00 前言 CTFHub 专注网络安全、信息安全、白帽子技术的在线学习,实训平台。提供优质的赛事及学习服务,拥有完善的题目环境及配套 writeup ,降低 CTF 学习入门门槛,快速帮助选手成长,跟随主流比赛潮流。 0x01 题目描述…

chatgpt赋能python:Python绕过验证码分析

Python绕过验证码分析 介绍 验证码(CAPTCHA)是一种常见的人机验证机制,用于保护网站不被自动化机器人恶意攻击。但是,对于一些恶意攻击者而言,绕过这种验证机制是他们完成攻击的必由之路。Python是一种强大的编程语言…

如何区分GPT3.5和4?

切换模型 前两天申请的GPT 4的API调用权限终于申请下来了。 这两天我也是抓紧开发,让自己搭建的国内网站(aichatroom.cn)可以快速支持上使用GPT 4。 GPT 3.5和GPT4的区别 GPT-3.5 和 GPT-4 分别代表了 OpenAI 发布的两个不同版本的自然语言处…

2021年度泰晤士全球大学【计算机科学排名】公布

转载于 青塔 泰晤士世界大学学科排名(THE World University Rankings by Subject)涵盖工程技术、理学、生命科学、计算机科学、教育学、临床前期与临床健康、商业与经济、法学、社会科学、艺术与人文、心理学等11个学科领域。 学科排名采用与世界大学排名…

再见正则表达式!这次彻底告别手写!

这篇文章的目的是让你能得到完美的正则表达式,而且还不用自己拼。 说到正则表达式,一直是令我头疼的问题,这家伙一般时候用不到,等用到的时候发现它的规则是一点儿也记不住,\d表示一个数字,\s表示包括下划…

软银成功收购波士顿动力,收获顶尖的机器人技术

波士顿动力(Boston Dynamics)在机器人领域里属于顶尖的研发公司,而这家在行业内取得了巨大成功的公司,却被Alphabet(谷歌母公司)整体出售给日本软银,并且与Boston Dynamics一起被出售的是日本本土的一家机器人公司Scha…

深度学习经典入门项目—波士顿房价预测

目录 房价预测--线性回归数据处理数据形状变换数据集划分数据归一化处理housing.data数据格式 模型设计线性回归模型设计 训练配置训练过程保存并测试模型保存模型测试模型 房价预测–线性回归 波士顿房价预测数据集是经典的机器学习、深度学习入门的数据集。下面我们用这个数…

本周AI热点回顾:波士顿动力机器狗去新西兰放羊了、微软WSL将支持GPU、ERNIE-GEN刷新SOTA

01 波士顿动力机器狗去新西兰放羊了!网友:不努力连狗都不如 波士顿动力的科学家可能做梦也没想到,他们研制出来的Spot机械狗,刚刚商用,就被训练来放羊了。 新西兰,一个因为牛奶和羊毛被中国人熟知的国家&am…

机器学习项目实践——波士顿房价预测

基于线性回归预测波士顿房价 摘要:分类和回归属于机器学习领域有监督学习算法的两种方法,有监督学习是通过已有的训练样本去训练得到一个模型,再使用这个模型将所有的输入映射到相应的输出,若输出结果是离散型称为分类&#xff0…

起底网红机器人波士顿动力

关注网易智能,聚焦AI大事件,读懂下一个大时代! 这家“网红”机器人公司又火了。 最近,接连发布的两条波士顿动力机器人的最新视频让不少人感到惊讶,一段是发布于今年10月11日标题为“跑酷阿特拉斯”的视频,…

重磅干货!揭秘波士顿动力背后的专利技术

【导读】本文从波士顿动力背后申请的专利入手,从动力系统、步态分析,详细探讨了波士顿动力机器人背后的技术实现。 波士顿动力四足机器人的发展历程(前世今身) 相比于轮式或履带机器人,波士顿足式机器人具有更强的地形适应能力,身体十分灵活,可以在各种崎岖不平的地面行…

机器学习实战演练 波士顿房价预测与模型评估

介绍数据集: 本数据集共有506个样本,每个样本有13个特征及标签MEDV 特征信息: CRIM 城镇人均犯罪率 ZN 占地面积超过2.5万平方英尺的住宅用地比例 INDUS 城镇非零售业务地区的比例 CHAS 查尔斯河虚拟变量 ( 1 如果土地在河边;否则…

这就是波士顿动力第一款商用产品「机器狗」Spot

波士顿动力 CEO Marc Raibert 告诉《The Verge》称,最近 Spot 正在大量的「概念验证」环境下接受测试,包括包裹递送和监控作业。他表示,尽管商用版 Spot 没有具体的上线日期,但应该会在几个月内与公众见面,并且年底前肯…

波士顿动力9.21亿美元被卖,地主家也养不起网红机器狗

据韩国经济日报消息,消息人士透露在今天上午的董事会上,韩国现代集团确认将以不到一万亿韩元(约9.21亿美元)收购波士顿动力。 消息人士称,为完成波士顿动力收购,现代汽车已聘请高盛(Goldman Sa…

科普分享 | 波士顿动力机器人进化史

我想很多人都看过美国科幻电影系列《终结者》,著名电影杂志《电影周刊》在评选20世纪最值得收藏的一部电影时,此片以最高票数位居第一。科幻是现实对历史的镜像,机器人领域最让人津津乐道的莫过于波士顿动力公司了。 图1 《终结者》剧照 波士…

人工智能与大数据—线性回归之波士顿房价预测

一,首先导入必要的包 1,paddle.fluid--->PaddlePaddle深度学习框架 2,numpy---------->python基本库,用于科学计算 3,os------------------>python的模块,可使用该模块对操作系统进行操作 4&a…

波斯顿动力机器人为啥那么牛逼?

关注星标公众号,不错过精彩内容 作者 | strongerHuang 微信公众号 | 嵌入式专栏 原文:1980 - 2022年,波斯顿动力发展历程、机器人产品分类汇总。 视频:位于我的视频号『strongerHuang』中视频专辑《斯顿动力机器人》(第…