【LLM学习之路】9月20日第七天

NLP任务总览

引用：https://aistudio.baidu.com/education/lessonvideo/1000734和https://blog.51cto.com/u_15273918/2917652

NLP的分析

输入一段文字输出类别，有两种问题

输出一个类别
输出每一个token的类别

输入一段文字输出一段文字 seq2seq

输入多段文字

…

POS Tagging （Part-of-Speech）

标记句子词性

输入一个seq，其中的每一个token需要输出一个类别

Word Segmentation 分词

输入中文

台湾大学简称台大

需要将每个词汇分割，找到词汇边界，以词汇当作处理单位

Parsing

语法分析

Coreference Resolution 指代消解

哪些词汇指的是同一个东西

Leo和他的柠七 Leo和他就是指的一个人

Summarization摘要

输入一个长seq，输出一个短的seq

机器翻译

语法错误修正

Sentiment Classification情感分类

是好评还是差评

Stance Detection立场检测

输出SDQC中的一个类别

Support：赞同
Denying：反对
Querying：疑问
Commenting：说明

Veracity Prediction 实时监测

比如一篇twitter，“今日清晨某市发生了一起重大案件”，那这个事请到底是真的还是假的呢？这个时候我们就需要 Veracity Prediction，事实侦测的模型来告诉我们说这则推送大概率是真的还是假的

Natural Language Inference （NLI）自然语言推理

判断两个文本片段之间的逻辑关系，是一个三分类问题

contradiction：矛盾，从前提不可能推到假设。
entailment：蕴含，从前提很有可能推到假设。
neutral：中立，无法判断从前提能否推到假设。

Search Engine 搜索引擎

输入的搜寻问题或是关键字读入，并把一篇文章读进去，输出就是这篇文章和问题的关系程度，根据这个关系程度排序并依次展示给你。

输入sequence输出class的类型

Question Answering （QA）问答系统

Past solution

Question Processing：问题处理模块。将输入的问题做处理，如提取问题中的关键词。
Document and Passage Retrival：文件和内容检索模块。通常有一个很大的数据库，将经过问题处理模块得到的如关键词进行数据库内的检索，将相似度大的讯息当作输出。
Answer Extraction：答案提取模块。文件和内容检索模块抽出的答案不一定是对的，所以要做答案提取模块的判断，比如说回答的应该是数字、人名等等，再根据这种输出类型挑选最终输出的答案。