【LLM学习之路】9月20日 第七天
NLP任务总览
引用:https://aistudio.baidu.com/education/lessonvideo/1000734和https://blog.51cto.com/u_15273918/2917652
NLP的分析
输入一段文字输出类别,有两种问题
- 输出一个类别
- 输出每一个token的类别
输入一段文字输出一段文字 seq2seq
输入多段文字
…
POS Tagging (Part-of-Speech)
标记句子词性
输入一个seq,其中的每一个token需要输出一个类别
Word Segmentation 分词
输入中文
台湾大学简称台大
需要将每个词汇分割,找到词汇边界,以词汇当作处理单位
Parsing
语法分析
Coreference Resolution 指代消解
哪些词汇指的是同一个东西
Leo和他的柠七 Leo和他就是指的一个人
Summarization摘要
输入一个长seq,输出一个短的seq
机器翻译
语法错误修正
Sentiment Classification情感分类
是好评还是差评
Stance Detection立场检测
输出SDQC中的一个类别
- Support:赞同
- Denying:反对
- Querying:疑问
- Commenting:说明
Veracity Prediction 实时监测
比如一篇twitter,“今日清晨某市发生了一起重大案件”,那这个事请到底是真的还是假的呢?这个时候我们就需要 Veracity Prediction,事实侦测的模型来告诉我们说这则推送大概率是真的还是假的
Natural Language Inference (NLI)自然语言推理
判断两个文本片段之间的逻辑关系,是一个三分类问题
- contradiction:矛盾,从前提不可能推到假设。
- entailment:蕴含,从前提很有可能推到假设。
- neutral:中立,无法判断从前提能否推到假设。
Search Engine 搜索引擎
输入的搜寻问题或是关键字读入,并把一篇文章读进去,输出就是这篇文章和问题的关系程度,根据这个关系程度排序并依次展示给你。
输入sequence输出class的类型
Question Answering (QA) 问答系统
Past solution
Question Processing:问题处理模块。将输入的问题做处理,如提取问题中的关键词。
Document and Passage Retrival:文件和内容检索模块。通常有一个很大的数据库,将经过问题处理模块得到的如关键词进行数据库内的检索,将相似度大的讯息当作输出。
Answer Extraction:答案提取模块。文件和内容检索模块抽出的答案不一定是对的,所以要做答案提取模块的判断,比如说回答的应该是数字、人名等等,再根据这种输出类型挑选最终输出的答案。
Today’s solutions
Reading comprehension 阅读理解
输入:several sequences
输出:sequence
QA模型是能够处理来自类似网页的非结构化数据进行学习
Extractive QA 抽取式问答系统
输入:several sequences
输出:two numbers
给出模型一篇文章和一些问题,让模型输出问题的答案,且这些答案是分布在原文中,而且模型是强制copy的,它直接输出两个数字分别代表s和e(start起始位置、end终止位置),正确答案就是从s到e的所有词汇
Dialogue 对话系统
Chatting 闲聊机器人
输入:several sequences
输出:several sequences
Chatting 闲聊机器人,用途与人闲聊,多轮对话的问题,模型要记得对话的历史。
而且今天我们是希望,chatbot是能控制个性、同理心、博学多闻等等。
Task-oriented 任务导向对话系统
输入:several sequences
输出:several sequences
Task-oriented 任务导向对话系统。它所解决的是对话是为了帮人完成某件事请,比较常见的应用就是定票、定旅馆等,其实这个在Rasa中有比较成熟的框架来实现这种订票类。
Knowledge Graph 知识图谱
是由node 和 edge,在知识图谱中每个node是一个entity 实体,edge是两个实体之间的relation关系
对于 Knowledge Graph 知识图谱 有两个主要的方向:
-
给模型一个知识图谱,模型该如何用整个图谱来解决对应的任务
-
能不能从大量的文字中,抽取出知识图谱
Name Entity Recognition (NER) 命名实体识别
输入:sequence
输出:class for each token
解法:那怎么把node也就是entity抽取出来呢?NER就是将一个句子中的每一个token输出一个类别,类似POS tagging词性标注。
那什么是 Name Entity 分类的实体呢?这个往往根据领域决定的,一般而言,实体分为人名、组织名、地名等等,可以人为增加想要增加的实体。
Relation Extraction 关系提取
输入:sequences(one or more than one) + two names
输出:class