【AI】NLP

不定期更新，建议关注收藏点赞。

整体框架
baseline构建
模型调参、模型优化、其他模型
数据trick、指标优化、magic feature
数据增强、伪标签、迁移学习
模型融合
sklearn中TFIDF参数详解

频率阈值可以去掉高于max和低于min的特征
l2正则化
如何fine-tune微调BERT用于文本分类
有一片论文可以找一下 how to fine-tune BERT for text classification?以下只是几个点，详见paper

fine-tuning strategies
further pre-training 要求机器好、用时长
multi-task fine-tuning
长文本阶段处理（长文本截断对BERT不友好）
不同层的特质不同层表征意义不一样哪一层是效果最好的
学习率（小的学习率）

transformer

几乎所有NLP都是基于这个基础上。
BERT

大语言模型

Google Gemma

30:00

疫情网民情绪识别

思路分析

linux系统需要把数据转换成utf-8读取

多模态情感分析->转化成文本情感分析->文本分类
机器学习方法：词袋模型TFIDF（baseline，基于字还是词）Ngram范围、分类模型LR、SVM、XGBoost、等

深度学习方法：CNN，RNN，Transformer，早停、学习率衰减、Embedding向量dropout，双层双向RNN即Bi-LSTM Bi-GRU，Text CNN、Text RNN、Text Capsule等

迁移学习方法：BERT、XLNET、ALBERT等

预训练模型 bert albert xlnet robert,BERT-WWM
不同层级相加、平均、concat
batch,epoch
对抗训练环境包的版本要注意
BERT+Word2Vec/Glove

标签分布不平衡，1和-1占比较小
发布时间关于样本数量和样本标签的分布、正文长度分布

文本长度也要注意设置多少能覆盖90%的文本、北大开源分词包pkuseg

数据集中有图片和视频信息的分布，图片张数的分布、视频分布及语义信息

代码
把训练集和测试集的文本编码成bert的三条序列，填充成固定的文本长度，并保存起来，标签类型编码改成0-2，利用transformer包构建bert模型导入，五折交叉验证训练模型，有两种结果，一种是概率相加取平均，另一种是每一折结果取出来做投票

batch_size=32还是64要与显卡的内存32g 还是64g对应上
改进思路：模型优化、修改损失函数、对抗训练

数据增强
- 为什么要进行文本增强？常见的场景是少样本、分类任务中样本分布不均衡、半监督训练场景、提高模型鲁棒性。
  解决方法：半监督学习算法UDA用在无标签样本上、回译back translation、随机词替换、非核心词替换、基于上下文信息的文本增强
  方法的原理：1）保持语义不变，变换文本表达。2）按照某种策略对原文局部调整EDA easy data augmentation，如同义词替换SR 、随机删除RD、随机插入RI、随机交换RS、非核心词替换

URA原理

不足之处：只进行了词替换，没提到删除、交换等。

基于上下文信息的文本增强，首先需要一个训练好的语言模型LM，对于需要增强的原始文本，随机去掉文中的一个词或字，取决于语言模型支持字还是词（取决于语言模型支持字还是词），将文本剩余部分输入语言模型，选择语言模型所预测的top k个词去替换掉原文对应的词，以形成新的k条文本。

利用语言生成模型进行文本生成如GPT

工业界或比赛界用得最多的方式：回译，测试时也可以增强，对一条测试样本可以进行构造多条增强样本，得到预测结果，和原来的结果进行加权融合 TTA、embedding技术，FastText+Glove pre-trained、伪标签（将测试集得到的结果和训练集合到一起再喂进去）、

- 回译：利用翻译模型不停翻译成其他语种最后再翻译回来
迁移学习
通过减少源域到目标域的分布差异进行知识迁移，从而实现数据标注工作。
传统机器学习和深度学习，训练集和测试集同分布。
迁移学习中的“域”：某个时刻某个特定的领域，比如书本评论和电视剧评论，本身分为source domain & target domain，并不要求二者数据分布一致。
迁移学习中的“任务”：比如情感分析和实体识别就是两个不同的任务，source domain & target domain任务也不一定一致。
分为几种，归纳式迁移学习inductive transfer learning(目标任务不同但相关，无论源域和目标域的数据域是否相同)、直推式迁移学习transductive（目标任务相同，但目标数据域中没有或少量可获得带标记的数据，然而在源数据域中有许多可获得带标记的数据）、无监督迁移学习（源域目标域都没有带标签的数据，关注与目标任务上的聚类、降维和密度估计）。

单步迁移学习和多步迁移学习。比如源域图片、目标域文字，需要做多步迁移，找一个中间域，划分为单步迁移。单步又分为同构DA、异构DA，它们区别在于数据空间是否一致。
domain adaptation，其中feature adaptation很重要：源域和目标域共享同样的特征，提取到共同空间。
特征工程
模型调参
参数初始化很重要，很多时候是这里的问题。
Glorot条件：优秀的初始化应该使各层激活值和状态梯度的方差在传播过程中的方差保持一致。
初始化方法下面推荐3种。

Xavier
He
normal
根据3σ原则，概率得到几乎只会出现在(μ-3σ,μ+3σ)之间

技巧：
shuffle,
batch normalization BN用于图像处理, layer normalization LN用于文本处理 ,
梯度裁剪：限制最大梯度，对超过阈值的梯度进行规约，使优化算法更加稳定，
dropout 防止过拟合一般设置为0.5，adam优化器：小数据集尝试sgd（慢但是效果好），大数据集先用adam，快收敛的时候换sgd，
学习率用sgd的化考虑从1或0.1开始
激活函数 tanh或relu比sigmoid更优
sigmoid在-4到4的区间才会有较大的梯度，之外梯度接近0，很容易造成梯度消失问题，输入0均值，sigmoid输出后非0均值
其他超参数如focal loss参数，这个不是在所有场景下都有效
全连接层，如果输入和输出大小一致，建议用highway network替换

highway network

模型融合
哪些模型可以拿来融合？同样参数但模型训练的不同阶段即不同迭代次数的模型、同样参数不同的初始化方式、半监督加入的数据量、不同的模型（如bert系列 bert albert xlnet bert-wwm roberta 都是基于transformer结构的预训练语言模型统称为bert家族）、融合特征工程

文本输入的截断方式：三种，pre-truncate,post-truncate,middle-truncate(head+tail)

bert 是一种基于transformer encoder构建的预训练语言模型，通过masked language model MLM +Next sentence prediction NSP两个任务在大规模语料上训练得到的；开源的bert分为base 和large，模型大小不同。
bert-wwm 模型结构和bert完全一样，只是在MLM训练任务上做了小的改进，bert在做MLM采用的是token级别的mask，而bert-wwm采用词级别的mask。

roberta是bert优化版，只是在数据量和训练方式上做改进，更大的数据量更好的训练方式训练的更久，去除了NSP任务有损模型性能，MLM换成dynamic masking LM, 更大的batchsize及其他超参数的调优。

XLNet对bert做了较大的改动，二者在模型结构和训练方式上都有不小的差异。
Bert的MLM在预训练时有mask标签，但使用时没有，导致训练和使用出现不一致；MLM不属于autoregressive LM不能做生成类任务，XLNet采用PML permutation language model避免mask标签的使用，且可以做生成任务。Bert使用的transformer结构对文本长度有限制，XLNet使用升级版的transformer-XL

Albert是bert的瘦身版本，更简单的模型，更少的数据，得到更好的结果。通过两个方面减少模型参数量，对vocabulary embedding进行矩阵分解，将原来的矩阵VxE分解成两个矩阵VxH和HxE（H<<E），跨层参数共享可以避免参数量随网络深度增加而增加。

这些模型在不同数据集上有差异，需要试一下才知道哪个好。总体而言，XLNet,roberta,Bert-wwm会比bert效果略好，large比base好，albert也有多个版本，tiny版本好很多。更多情况下会被一起使用，最后做ensemble.

NLP:BERT, TextRNN, TextCapsule
分类问题采用投票方法，回归问题采用平均、加权平均，权值按模型效果进行排名。交叉验证也是一个方式，把每一折数据固定下来，看效果，也是按加权平均。
stacking的方式
在这里插入图片描述

面试题

这个项目有什么难点？针对这个怎么优化的
预训练模型BERT和word2vex+textRNN based encoder哪个效果好
BERT在per train 时候和word2vec有什么异同点
bert的token怎么分词的
bert如何获得词意和句意
为什么bert有3个嵌入层，它们如何实现的
bert在Per train阶段的损失函数
为什么fine-tune有效？学习到针对特定任务的特征，学到了深层次的语义信息。

1.word2vec与Elmo模型在语义学习上差异是什么？
2.Batch Normalization与Layer Normalization区别？bert中为什么用后者？
3.熟悉GELU激活函数，与RELU差异。
4.实际操作，Semi-Supervised DA方法；
5.对比实施模型融合的相关方法。

1.有哪些文本增强方法？你用过哪些文本增强方法
2.BERT有哪些调参方法？你是如何调参的？Transformer的原理？
3. 尝试模型调参（比如BERT和word2vec构建词向量）
4. 了解一种文本增强方法
5. 代码实现文本增强(比如回译技术)

涉及论文：
Understanding the diffificulty of training deep feedforward neural networks
Delving Deep into Rectififiers:
Surpassing Human-Level Performance on ImageNet Classifification
Highway Networks
论文下载地址：
https://arxiv.org/abs/1502.01852
http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf
https://arxiv.org/abs/1505.00387
作业名称（详解）：面试问题及比赛实战。
1.跑通其它的预训练模型
2.尝试多模型的融合，实现stacking方式
3.尝试加入特征进行模型学习
4.熟悉几种常用的参数初始化方法及其原理（看paper）
5.熟悉adam原理（看paper）

Bert
有两个预训练任务，MLM masked language model（在每一轮迭代中随机选择15%的词隐藏，目标是通过它们的上下文来预测这个单词，操作是取这些词对应的最后一个隐单元向量后接一个softmax来预测这个词，80%采用masked，10%随机选择其他词填充，10%使用原词，这个平衡了masked和fine-tune）、Next Sentence Prediction（预测第二个句子是否可以自然的接在第一个句子后面，是一个二分类问题，用于理解句子间的关系）

是一个12层的网络，学到位置信息，多头attention公式见上图右边，I是原始输入，输出key,value,query。