Lecture 5 Part of Speech Tagging

目录

        • POS application: Information Extraction 词性应用:信息提取
      • POS Open Class 开放类词性
      • Problem of word classes: Ambiguity 词类问题:模糊性
      • Tagsets 标记集
      • Penn Treebank Tags:
      • Derived Tags: 衍生标签
      • Tagged Text Example 标记文本示例
      • Reasons for automatic POS tagging 自动词性标注的原因
      • Automatic Taggers 自动标注器
      • Unknown Words

Part of Speech(POS)

  • Also called word classes, morphological classes, syntactic categories 也称为词类、形态类、句法类别

  • E.g.: nouns, verbs, adjective 例如:名词、动词、形容词

  • POS tells information about a word and its neighbors: 词性提供了关于单词及其相邻单词的信息

    • Nouns are often preceded by determiners 名词通常由限定词前置
    • Verbs preceded by nouns 动词通常由名词前置
    • content as a noun pronounced as /'kɑ:ntent/
    • content as an adjective pronounced as /kən’tent/

POS application: Information Extraction 词性应用:信息提取

  • Given sentence: “Brasilia, the Brazilian capital, was founded in 1960”

  • Extract information: 提取信息

    • capital(Brazil, Brasilia)
    • founded(Brasilia, 1960)
  • First step of information extraction is finding all POS tags: 信息提取的第一步是找到所有的词性标签

    • nouns: Brasilia, capital
    • adjective: Brazilian
    • verbs: founded
    • numbers: 1960

POS Open Class 开放类词性

  • Open vs. closed: How readily do POS categories take on new words? 开放类 vs. 封闭类:词性类别接受新词的频率如何?

  • E.g. of open classes: 开放类的例子

    • Nouns:
      • Proper(专有名词) vs. common(普通名词): Australia, wombat
      • Mass(集合名词) vs. count(可数名词): rice, bowls
    • Verbs:
      • Rich inflection: go/goes/going/gone/went 富有变化
      • Auxiliary verbs(助动词): be, have, do 助动词
      • Transitivity: wait, hit, give 及物性
    • Adjectives:
      • Gradable(等级形容词) vs. non-gradable(非等级形容词): happy/happier/happiest, computational
    • Adverbs:
      • Manner(情状副词): slowly
      • Locative(处所副词): here
      • Degree(程度副词): really
      • Temporal(时间副词): today
  • E.g. of closed classes: 封闭类的例子

    • Prepositions(介词):
      • in, on, with, for, of, over
    • Particles:
      • off
    • Determiners(限定词):
      • Articles(冠词): a, an, the
      • Demonstratives(指示词): this, that, these, those
      • Quantifiers(数量词): each, every, some, two
    • Pronouns(代词):
      • Personal(人称代词): I, me, she
      • Possessive(所有格代词): my, our
      • Interrogative(疑问代词): who, what
    • Conjunctions(连词):
      • Coordinating(并列连词): and, or, but
      • Subordinating(从属连词): if, although, that
    • Modal verbs(情态动词):
      • Ability: can, could
      • Permission: can, may
      • Possibility: may, might, could, will
      • Necessity: must

Problem of word classes: Ambiguity 词类问题:模糊性

  • Many word types belong to multiple classes 许多单词类型属于多个类别

  • POS depends on context 词性取决于上下文

  • E.g.: flies

    在这里插入图片描述

    • The word flies in the first sentence is an inflection of the verb “fly” 在第一句中,flies 是动词 “fly” 的变形
    • The word flies in the second sentence is the plural form of the noun “fly” 在第二句中,flies 是名词 “fly” 的复数形式

Tagsets

Tagsets 标记集

  • A compact representation of POS information 词性信息的紧凑表示

    • Usually less than 4 capitalized characters. E.g. NN = noun 通常少于4个大写字符。例如 NN = noun
    • Often includes inflectional distinctions 经常包括形态变化的区别
  • Major English tagsets: 主要的英语标记集

    • Brown: 87 tags
    • Penn Treebank: 45 tags
    • CLAWS/BNC: 61 tags
    • Universal: 12 tags
  • At least one tagset for all major languages 所有主要语言至少有一个标记集

Penn Treebank Tags:

  • Open classes: 开放类

    • NN: noun 名词
    • VB: verb 动词
    • JJ: adjective 形容词
    • RB: adverb 副词
  • Closed classes: 封闭类

    • DT: determiner 限定词
    • CD: cardinal number 基数
    • IN: preposition 介词
    • PRP: personal pronoun 人称代词
    • MD: modal 情态动词
    • CC: coordinating conjunction 并列连词
    • RP: particle 助词
    • WH: wh-pronoun 疑问代词
    • TO: to

Derived Tags: 衍生标签

  • Open classes: 开放类

    • NN (noun singular): 单数名词
      • NNS (plural) 复数
      • NNP (proper) 专有名词
      • NNPS (proper plural) 复数专有名词
    • VB (verb infinitive): 不定式动词
      • VBP (1st/2nd person present) 第一/第二人称现在时
      • VBZ (3rd person singular) 第三人称单数
      • VBD (past tense) 过去时
      • VBG (gerund) 现在分词
      • VBN (past participle) 过去分词
    • JJ (adjective): 形容词
      • JJR (comparative) 比较级
      • JJS (superlative) 最高级
    • RB (adverb): 副词
      • RBR (comparative) 比较级
      • RBS (superlative) 最高级
  • Closed classes: 封闭类

    • PRP (pronoun personal): 人称代词
      • PRP$ (possessive) 所有格
    • WP (wh-pronoun): 疑问代词
      • WP$ (possessive) 所有格
      • WDT (wh-determiner) 疑问限定词)
      • WRB (wh-adverb) 疑问副词

Tagged Text Example 标记文本示例

在这里插入图片描述

Automatic Tagging

Reasons for automatic POS tagging 自动词性标注的原因

  • Important for morphological analysis. E.g. lemmatization 对形态分析很重要。例如:词形还原

  • For some applications, we want to focus on certain POS 对于某些应用,我们希望关注某些词性

    • E.g. nouns are important for information retreieval, adjectives for sentiment analysis 例如:名词对于信息检索很重要,形容词对于情感分析很重要
  • Very useful features for certain classification tasks. 对于某些分类任务,这是非常有用的特性

    • E.g. genre attribution 体裁属性
  • POS tags can offer word sense disambiguation 词性标签可以提供词义消歧

    • E.g. cross/NN, cross/VB, cross/JJ all have different means
  • Can use them to create larger structures 可以用它们来创建更大的结构

Automatic Taggers 自动标注器

  • Rule-based taggers 基于规则的标注器
  • Statistical taggers 统计标注器
    • Unigram tagger 一元标注器
    • Classifier-based tagger 基于分类器的标注器
    • Hidden Markov Model tagger 隐马尔科夫模型标注器

Rule-Based Tagging

  • Typically starts with a list of possible tags for each word. Source from a lexical resource or a corpus 通常从词典或语料库中为每个单词列出可能的标签开始
  • Often includes other lexcial information. E.g. verb subcategorization 经常包括其他词汇信息。例如:动词下类化
  • Apply rules to narrow down to a single tag 应用规则以缩小到一个标签
  • Large systems have thousands of constraints 大型系统有数千个约束

Unigram Tagger

  • Assign most common tag to each word type 为每个单词类型分配最常见的标签
  • Requires a corpus of tagged words 需要一个标记过的词语的语料库
  • Just a look-up table 只是一个查找表
  • Approximately 90% accuracy 精度约为90%
  • Often considered the baseline for more complex approaches 通常被认为是更复杂方法的基线

Classifier-Based Tagging

  • Use a standard discriminative classifier like logistic regression or neural network with features: 使用如逻辑回归或神经网络这样的标准判别式分类器,其特征包括

    • Target word 目标词
    • Lexical context around the word 词周围的词汇上下文
    • Already classified tags in the sentence 句子中已分类的标签
  • Can suffer from error propagation: wrong predictions from previous steps affect the next ones 可能受到错误传播的影响:前一步的错误预测影响下一步

Hidden Markov Models

  • A basic sequential model 一个基本的序列模型
  • Like sequential classifiers, use both previous tag and lexical evident 与序列分类器一样,使用前一个标签和词汇证据
  • Unlike classifiers, considers all possibilities of previous tag and treat previous tag evidence and lexical evidence as independent from each other 与分类器不同的是,它考虑了前一个标签的所有可能性,并将前一个标签的证据和词汇证据视为相互独立的
    • Less sparsity 稀疏度较小
    • Fast algorithms for sequential prediction 针对序列预测的快速算法

Unknown Words

  • Huge problem in morphologically rich languages 在形态丰富的语言中是一个巨大的问题

  • Can use things already seen only once to best guess for things never seen before 可以使用已经看到一次的事物来对从未见过的事物进行最佳猜测

    • Tend to be nouns, followed by verbs 倾向于是名词,然后是动词
    • Unlikely to be determiners 不太可能是限定词
  • Can use sub-word representations to capture morphology 可以使用子词表示来捕获形态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29575.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

英语听力练习

生词积累生词所在句子 blast an explosion, such as that caused by dynamite(dynamite:a powerful explosive used especially in mining) The blast hit a bus about to set off for the Ugandan capital Kampala. collapse the act of falling down or fa…

如何做代码抽象设计,多种设计模式的应用【四种抽象方式,干货附上代码】

代码这种东西,机器不管你写的怎么样,肯定能识别, 人就不一样了,前人拉屎后人踩屎,一坨认栽,n坨就有点过分了哈 一般写代码也不用太高大上,很多接口还是很简单的,如果把各种设计模式搞…

我开发了一个AI网站,速速围观,文末全是福利

目录 前言 AI大侠能提供什么功能 AI聊天 AI写作 AI编程 AI绘画 以及其它近10种AI工具 AI大侠后续功能计划 SQL优化 共建计划 写到最后 大家好,我是大侠,AI领域的专业博主 前言 最近有很多小伙伴问大侠: 有没有国内免费安全可用…

chatgpt赋能python:如何将Python写的游戏添加联机功能

如何将Python写的游戏添加联机功能 Python是一种流行的编程语言,广泛用于游戏开发。有许多游戏是单机版,但联机游戏可以为玩家们提供更多的娱乐和社交互动。本文将介绍如何为你的Python游戏添加联机功能,以便玩家们可以在Internet上与其他玩…

带你了解一下关于ChatGPT的快速进化过程

ChatGPT是一种基于GPT-3的聊天机器人,它可以理解自然语言,并生成符合人类对话语义的响应。在过去几年中,随着深度学习技术和NLP领域的快速发展,ChatGPT也在不断地进化和发展。 ChatGPT早期的版本是建立在GPT-3的基础上&#xff0…

BUUCTF-Reverse —— 第二页的题目集合

[MRCTF2020]hello_world_go 用go语言编写的程序,go语言编写的程序用的是静态链接的方法所以程序都很大,而且反汇编后的伪代码也很麻烦。 因为是elf文件,动态调试elf文件的话,可以用IDA连linux虚拟机,也可以使用gdb动…

前端技术搭建俄罗斯方块(内含源码)

The sand accumulates to form a pagoda ✨ 写在前面✨ 功能介绍✨ 页面搭建✨ 样式设置✨ 逻辑部分 ✨ 写在前面 上周我们实通过前端基础实现了扫雷游戏,今天还是继续按照我们原定的节奏来带领大家完成俄罗斯方块游戏,功能也比较简单简单,也…

订餐系统之微信点餐

经过几天的开发、测试微信点餐demo终于完成了,特在此分享下,不好的地方请大家多指正下哈!一开始,就想这东西出来这么久了,网上应该有很多现成的东西,于是,baidu、google了半天,基本没…

点餐系统测试

一、设计测试用例 二、提交BUG a)BUG 一 标题:兼容性差,只能在Chrome浏览器和火狐浏览器上使用 1.版本号:V0009 2.测试环境:Chrome 浏览器 版本号 96.0.4664.45 火狐 浏览器 版本号 97.0.1 操作系统:win10 3.测试数据…

点餐系统详解

一、项目简介 “民以食为天”餐饮行业作为传统行业,传承着中国五千年来的饮食文化,现如今互联网发展迅速,随着餐厅的规模扩大,并伴随年轻消费者的崛起,网上点餐,逐渐成为一项必不可少的功能,传…

【Android】线上自助点餐系统

【Android】线上自助点餐系统 效果视频商品选购界面效果图商品数据商品标题文件商品详细文件信息商品图片 添加商品数据解析左侧标题数据解析右侧商品数据 左侧标题与右侧商品双向绑定加减按钮监听所选商品存入数据库 商品复选效果图取出商品数据商品清空商品增删 支付界面效果…

点餐系统的开发,php后台+微信小程序 实现完整的餐厅点餐系统。

对于我们的日常生活来说,微信点餐小程序使用十分广泛,使用微信小程序进行点餐已经成为如今的新餐饮消费方式之一,小程序的入口就隐藏在微信中,背靠微信大流量平台,坐拥数以万计的用户。对于商家来说,使用微…

chatgpt弄的 简单的点餐系统 不知道怎么样

点餐系统可以提高餐厅的效率和客户的体验,因此在许多情况下非常有用。 对于餐厅,点餐系统可以帮助管理顾客的订单,包括快速和准确地获取顾客的点餐信息,避免了人工点餐的错误,减少服务员的工作负担,提高服务…

17行python代码,openai帮你实现下班自由

chatgpt最近火到不行,AI受到了前所未有的关注,openai作为开发团队不仅仅开发了一个在线尝鲜的聊天机器人,也提供API并且提供了python语言的的pypi库。 火出圈的聊天机器人是chatgpt3,既然排行老三,就说明这个张飞的前面还有大哥刘…

安卓手机超强的悬浮窗工具

看到一个挺好用的安卓悬浮窗工具,仅作分享 该款工具是安卓上的一款应用,名字叫fooView 安装之后便会出现在手机主界面中的左下方或者是右下方! 怎样操控球球? 按住它,向上滑动即可打开程序和文件管理器。也可以直接…

[日常折腾之码上归一]多种编程语言打印当前系统时间

之前做PIC粒子模拟时程序通常跑好几天,为了对比不同网格、粒子数等条件下的运行天数,我养成了一个在程序运行程序开始和程序运行结束分别打印当前时间戳的习惯,并坚持了3个多月。下面结合自己的实践经历,分别使用不同编程语言打印…

chatgpt赋能python:Python免费编程软件介绍

Python免费编程软件介绍 Python是一种功能强大且易于学习的编程语言,因此在全球范围内受到广泛使用。除了许多付费的编程软件外,Python还拥有许多优秀的免费编程软件,为用户带来了更多的选择和方便。以下将扼要介绍几个著名的Python免费编程…

线性插值和双线性插值

先讲一下线性插值: 已知数据 (x0, y0) 与 (x1, y1),要计算 [x0, x1] 区间内某一位置 x 在直线上的y值(反过来也是一样,略) 上面比较好理解吧,仔细看就是用x和x0,x1的距离作为一个权重,用于y0和y1的加权。离哪个点近,那个点对最后的值共享越多。双线性插值本质上就是…

MATLAB复习高等数学下册(8.0)

Matlab是一款科学计算软件,可用于数据分析、图形绘制、模型建立、算法设计和数值计算等方面。Matlab使用MATrix LABoratory的缩写,即矩阵实验室,最初是为数值计算和线性代数而设计的,但后来也扩展到了其他领域,如图像和…

C++调用matlab编译动态库方法及相关问题解决

目录 参考链接:1、C调用matlab代码的方法1.1、Library Compiler 方法1.1.1、功能1.1.2、参考链接1.1.3、matlab编译动态库方法1.1.4、C 使用matlab编译动态库的传参方法1.1.4.1、演示把一个cv::Mat单通道影像传入matlab编译的dll中,解析matlab返回的变量1.1.4.2、下…