面试-NLP八股文

面试-NLP八股文

news/2024/12/26 13:17:05/文章来源:https://blog.csdn.net/weixin_45969777/article/details/139558900

机器学习

交叉熵损失： $L=-(ylog(\hat{y}) + (1-y)log(1-(\hat{y}))$
均方误差： $=\frac{1}{n}\sum\limits_{i=1}^{n}(y_{i} - \hat{y}_{i})^{2}$
BPR损失： $L=\sum_{(u,i,j) \in O} -ln\sigma(\hat{y}_{ui} - \hat{y}_{uj})$
最大似然估计：是一种在给定结果的情况下，使得选择的参数值观测到该结果的概率最大
交叉熵：衡量两个概率分布p和q之间差异的指标；最大化似然函数等价于最小化交叉熵
LR和SVM的异同
- LR是逻辑回归模型，在最后的结果上应用了sigmoid函数得到分布概率
- SVM是为了寻找一个最优超平面，使得训练样本离该超平面的间隔最大化
- 高斯核函数的核心思想是将样本数据进行升维，从而使得原本线性不可分的数据线性可分
- 同：
  - LR和SVM都可以处理分类问题，且一般都用于处理线性二分类问题
  - 两个方法都可以增加不同的正则化项，如L1、L2正则化
  - LR和SVM都可以用来做非线性分类，只要加核函数就好
- 异：
  - LR是参数模型，SVM是非参数模型
  - 逻辑回归采用的是cross-entropy loss，SVM采用的是hinge loss
  - SVM分类只需要计算与少数几个支持向量的距离，而LR和所有点都有关系
L1L2的特点
- 正则化是防止模型在训练数据上过度拟合的技术，即通过在模型的损失函数中引入额外的惩罚项，来对模型的参数进行约束，从而降低模型的复杂度（使数值变小）
- L1是权重参数的绝对值之和
- L2是权重参数的平方，L2正则化又称为权重衰减
dropout在训练过程中随机将部分神经元权重置为零
Layer Normalization与Batch Normalization
- 归一化是把数据特征映射到固定范围，以避免由于输入特征尺度存在较大差异，而使模型的优化方向可能会被尺度较大的特征所主导
- BN层(Batch Normalization)：是在不同样本之间进行归一化
- LN层(Layer Normalization)：是在同一样本内部进行归一化
如何缓解梯度消失问题
- 梯度趋近于零，网络权重无法更新或更新的很微小，网络训练再久也不会有效果
- 解决办法：选择合适的激活函数；批量归一化；使用残差网络
如何缓解梯度爆炸问题
- 梯度呈指数级增长，变的非常大，然后导致网络权重的大幅更新，使网络变得不稳定
- 解决办法：选择合适的权重初始化;梯度裁剪
防止过拟合的手段(训练时效果好，测试时效果拉)
- 增加训练数据量，或数据增强
- 简化模型结构
- 早停策略
- Dropout技术
- 正则化方法
Adam算法能够根据不同参数的梯度特性自适应地调整学习率。对于梯度较大的参数，学习率会相应减小，以避免参数更新过快导致震荡；对于梯度较小的参数，学习率会相应增大，以加速收敛。Adam优化器是由Momentum动量梯度与RMSProp算法构成
交叉验证：其基本思想是将数据分为K个互不重叠的子集（通常称为“折”），每次选取其中K-1个子集作为训练集，剩下的一个子集作为测试集，进行模型训练和评估。这个过程会重复K次，每次选择不同的子集作为测试集，最后将所有的测试结果求平均值。
KNN是根据某一样本点距离最近的 K 个样本点的类别来判断该样本属于哪个类别（多数投票）
K-means是无监督学习算法。根据输入无标签的数据，然后将数据聚类成不同的组。做法：随机初始化质心->计算每个数据点到每个质心的距离->根据距离将数据点到簇->重新计算簇的质心，重复这一过程直到质心不再变化或达到预定的迭代次数。
决策树是一种树形结构，主要用于分类，易过拟合，需要剪枝算法
随机森林是将多个决策树结合在一起，每次数据集是随机有放回的选出，而选出部分特征作为输入，最后将多个树的结果整合起来当作最后的结果输出。
归一化（Normalization）是将一列数据变化到某个固定区间(范围)中，通常，这个区间是[0, 1] 或者（-1,1）之间的小数
标准化（Standardization）是原始数据减均值之后，再除以标准差。将数据变换为均值为0，标准差为1的分布

深度学习

Embedding技术是将单词转换为固定长度的向量
- 作用（独热编码相比）：可以解决维度灾难，即独热编码（One-hot ）导致的维度激增；解决词汇鸿沟，即独热编码不能表达词汇之间的联系
- 基于内容的word2vec方法是最经典的，其中包含框架CBOW连续词袋模型（Continuous Bag of Words）和Skip-gram跳字模型
  - CBOW预设好窗口大小，利用窗口内的上下文来预测目标词。
    - 模型输入是上下文词汇的One-hot编码；经过Embedding层，即词汇编码各自和嵌入矩阵相乘，得到词向量；然后计算上下文词向量的平均值；再输入线性层，得到输出向量；输入softmax层得到概率分布，最大概率位置对应的词即为预测结果；
  - Skip-gram跳字模型为CBOW的逆过程
    - 模型输入是目标词的独热编码向量；经过in嵌入层，得到隐藏层；再经过out嵌入层得到输出向量；输入softmax层得到字典中每个词汇是目标词上下文的概率
文本关键词抽取
- textrank把文本拆分成词汇作为图节点，然后对节点权重进行倒序排列，得到排名前TopN个词汇作为文本关键词
  - 节点间权重计算方式：两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边，K表示窗口大小即最多共现K个词汇
- tf-idf
  - 词频（Term Frequency，TF）指某一给定词语在当前文件中出现的频率。 $词频(TF)=\frac{词w在文档中出现的次数}{文档的总词数}$
  - 逆向文件频率（Inverse Document Frequency，IDF）是一个词语普遍重要性的度量。即如果一个词语只在很少的文件中出现，表示更能代表文件的主旨，它的权重也就越大；如果一个词在大量文件中都出现，表示不清楚代表什么内容，它的权重就应该小。 $逆文档频率(IDF)=log(\frac{语料库的文档总数}{包含词w的文档数+1})$
  - 关键字抽取方式：计算所有词的TF-IDF=TF*IDF，对计算结果进行倒序排列，得到排名前TopN个词汇作为文本关键词
CNN有卷积核，池化层，线性层。计算公式： $N=\frac{W-F+2P}{S} + 1$
RNN模型（处理序列数据）
- 存在长期依赖缺失的问题：在处理长时间问题时，由于梯度消失造成的较远信息对此时几乎不产生影响
- 长短期神经网络LSTM和门控循环单元GRU可以解决长距离依赖缺失问题
- LSTM有遗忘门（决定遗忘的信息），输入门（更新细胞状态），输出门（由隐藏表示，输入变量，细胞状态决定）
- GRU是在LSTM的基础上提出的，与LSTM相比取消了细胞状态向量，门控结构也减少了，简化了LSTM的结构并提高其计算效率
Transformer模型是基于自注意力机制的深度神经网络模型，提高了计算效率，并更好地捕捉长距离依赖关系
- Positional Encoding：区分单、双数，利用正、余弦函数进行位置编码
- Multi-Head Attention：多头注意力机制是一种扩展自注意力机制的方法，它将自注意力机制分解为多个“头”，每个“头”都在不同的表示空间中学习信息，从而能够捕捉到更丰富的特征和关系，保证了可以学习到一个词的多个语义
  - $Softmax(\frac{QK^{T}}{\sqrt{d_{k}}})V$
  - $\frac{*}{\sqrt{d_{k}}}$ ：首先要除以一个数，防止输入softmax的值过大，导致偏导数趋近于0；其次选择根号d_k是因为可以使得q*k的结果满足期望为0，方差为1的分布。
  - 掩码操作Mask：包含Padding Mask和Sequence Mask两种。掩码就是让矩阵某些元素变为负无穷的数，使得其在后续Softmax中的概率为0。其中Padding Mask旨在消除输入序列中Padding的影响；而Sequence Mask只存在于解码器中，目的是在预测下一个词时，覆盖住后面的词汇注意力信息，达到只用前面序列来预测下一词的目的
- FFN模块是为了增加模型的非线性能力（因为内部使用的激活函数）
- NLP中Layer Normalization针对句内每个单词归一，Batch Normalization针对batch内同一位置单词的不同特征归一
模型的评价指标
- TP（true positive-真阳性）：表示样本的真实类别为正，最后预测得到的结果也为正；FP（false positive-假阳性）：表示样本的真实类别为负，最后预测得到的结果却为正；FN（false negative-假阴性）：表示样本的真实类别为正，最后预测得到的结果却为负；TN（true negative-真阴性）：表示样本的真实类别为负，最后预测得到的结果也为负
- 准确率表示预测正确的样本数占总样本书的比例。 $Accuracy=\frac{TP+TN}{TP+TN+FP+FN}$
- 精确率表示预测为正样本的样本中，正确预测为正样本的概率。 $Precision=\frac{TP}{TP+FP}$
- 召回率表示正确预测出正样本占实际正样本的概率。 $Recall=\frac{TP}{TP+FN}$
- F1 score折中了召回率与精确率。 $F1=2*\frac{Recall*Precision}{Recall+Precision}$
- HR （命中率-Hits Ratio）预测正确的用户占所有用户的比例，强调预测的“准确性”。 $HR=\frac{1}{N}\sum\limits_{i=1}^{N}hits(i)$
- MRR （平均倒数排名-Mean Reciprocal Rank）表示待推荐的项目是否放在了用户更显眼的位置，强调“顺序性”。 $MRR=\frac{1}{N}\sum\limits_{i=1}^{N}\frac{1}{p_{i}}$ ， $p_{i}$ 表示第 i 个用户的真实访问值在推荐列表的位置
- NDCG（归一化折损累计增益-Normalized Discounted Cumulative Gain）用于判断对于一个用户，返回的推荐item列表是否更好
  - Gain：一个列表中所有item的相关性分数。 $G ain = re l (i)$
  - Cumulative Gain: 表示对K个item的Gain进行累加（没有考虑顺序）。 $CG_{k} = \sum\limits_{i=1}^{k} rel(i)$
  - Discounted Cumulative Gain：考虑排序顺序的因素，使得排名靠前的item增益更高，对排名靠后的item进行折损。 $DCG_{k}=\sum\limits_{i=1}^{k} \frac{rel(i)}{log_{2}(i+1)}$
  - IDGC(ideal DCG)：理想的DCG，IDCG的依据是：是根据rel(i)降序排列，即排列到最好状态。算出最好排列的DCG，就是IDCG。 $NDCG=\frac{DCG}{IDCG}$
残差结构及意义：在结果上加输入，防止梯度消失和网络退化
Bert是由多个Transformer Encoder一层一层地堆叠起来
- Embedding由三种Embedding求和而成
  - Token Embeddings：针对单词，会在开头加入CLS，结尾加入SEP
  - Segment Embeddings：区别两种句子，前句赋0，后句赋1
  - Position Embeddings：针对位置，不同于Transformer使用正余弦函数，bert随机初始化位置嵌入。前者只能标记位置，后者不仅可以标记位置，还可以学习到这个位置有什么用。
- 长度限制为512

简单代码

数据结构里面的算法，手撕就好（例如：—句话说快排）
每一个数有一个概率，要求写一个随机数发生器，使随机数产生概率符合要求
最大子矩形面积，(记得是leetcode原题，大家可以去看一下)
判断数独是否是有效数独(行、列、每个3*3矩阵判断)
矩阵中正方形最大面积
2D接雨水

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/347417.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【ai】openai-quickstart 配置pycharm工程

【ai】openai-quickstart 配置pycharm工程

之前都是本地执行脚本【AI】指定python3.10安装Jupyter Lab环境为：C:\Users\zhangbin\AppData\Local\Programs\Python\Python310 参考之前创建的python工程使用的是局部的私有的虚拟环境 pycharm给出的解释器直接使用现有的，不new了可以选择3.10 ：可以选虚拟的：

阅读更多...

Rust-02-变量与可变性

Rust-02-变量与可变性

在Rust中，变量和可变性是两个重要的概念。变量：变量是用于存储数据的标识符。在Rust中，变量需要声明其类型，例如： let x: i32 5; // 声明一个名为x的变量，类型为i32（整数）&#…

阅读更多...

SpringCloud 前端-网关-微服务-微服务间实现信息共享传递

SpringCloud 前端-网关-微服务-微服务间实现信息共享传递

目录 1 网关获取用户校验信息并保存至请求头（前端-网关） 2 微服务获取网关中的用户校验信息（网关-微服务） 2.1 一般的做法是在公共的module中添加，此处示例为common 公共配置module中添加 2.2 定义拦截器 2.3 定义…

阅读更多...

简单通用的系统安装、备份、还原方法，支持 ARM 系统【Ventory+FirePE+DiskGenius】

简单通用的系统安装、备份、还原方法，支持 ARM 系统【Ventory+FirePE+DiskGenius】

文章目录 0. 简介1. 制作 Ventory 启动盘1.1. 下载 Ventory1.2. 制作 Ventory 启动盘 2. 添加 FirePE 等系统镜像到启动盘2.1. 下载 FirePE2.2. 导出 .iso 系统镜像文件2.3. .iso 系统镜像文件添加至启动盘 3. 启动 FirePE 等系统镜像3.1. 在 bios 中选择启动盘启动3.2. 启动系…

阅读更多...

# RocketMQ 实战：模拟电商网站场景综合案例（八）

# RocketMQ 实战：模拟电商网站场景综合案例（八）

RocketMQ 实战：模拟电商网站场景综合案例（八） 一、RocketMQ 实战：模拟电商网站场景综合案例–下单异常问题演示 1.png 1、如果订单在扣减库存、扣减优惠券、扣减余额后，在未确认订单前，出现了异常&am…

阅读更多...

vue+element el-select动态加减框数量及验证下拉框选项动态置灰(选中行的下拉框换个值后,原值没办法监控这个问题也解决了)

vue+element el-select动态加减框数量及验证下拉框选项动态置灰(选中行的下拉框换个值后,原值没办法监控这个问题也解决了)

1效果: 2部分主要(HTML): 1:这个位置主要就是看看方法什么的吧,还有大概的结构 2:change"sort_Change(item,tablelists.orderbyList)这两个参数(都有大用): (1)item:代表每次你操作的这个数据 (2)tablelists.orderbyList:代表你这一共有几行数据(上边这个例子就会得到一个…

阅读更多...

LCD电子广告牌课程设计

LCD电子广告牌课程设计

概述 1.1课程设计简介亮丽实用的广告牌可以给我们的生活添加光彩、可以给店铺招揽生意。传统的广告牌都是固定的汉字，并且时间长了会掉色，使汉字模糊难认，这就给我的生活带来很多的不便。尤其到了晚上传统广告牌就会失去其该有的作用。所以在…

阅读更多...

2024年安全现状报告

2024年安全现状报告

2024 年安全现状报告有些矛盾。尽管安全专业人员的道路困难重重，比如说严格的合规要求、不断升级的地缘政治紧张局势和更复杂的威胁环境，但整个行业还是在取得进展。许多组织表示，与前几年相比，网络安全变得更容易管理。组织之间…

阅读更多...

AI赋能银行国际结算审单：合合信息抽取技术的实践与应用

AI赋能银行国际结算审单：合合信息抽取技术的实践与应用

官.网地址：合合TextIn - 合合信息旗下OCR云服务产品时下，银行国际业务是金融体系的重要组成部分，涵盖了外汇交易、国际结算、贸易融资、跨境投资等领域，这些业务对于国际贸易和全球经济发展具有重要作用。国际业务部门单据、凭证…

阅读更多...

OpenGL系列（五）纹理贴图

OpenGL系列（五）纹理贴图

概述 OpenGL纹理是一种在三维图形中应用纹理映射的技术。纹理是一张图像，可以应用到三维模型的表面上，从而使得模型看起来更加真实和具有细节。通过纹理映射，可以将图像的像素值与三维模型的顶点进行匹配，从而为模型的表面增加细节…

阅读更多...

验证码识别接口、多种样式验证码识别接口、中英文验证码识别接口

验证码识别接口、多种样式验证码识别接口、中英文验证码识别接口

验证码识别接口、多种样式验证码识别接口、中英文验证码识别接口本文提供一个基于OCR和机器学习的验证码识别接口，能够识别较复杂的中文、英文验证码，在OCR的基础上针对验证码进行算法优化。本接口是收费的（最低0.5分1次调用，试…

阅读更多...

23种设计模式之代理模式

23种设计模式之代理模式

代理模式 1、概念代理模式：给某一个对象提供一个代理或占位符，并由代理对象来控制对原对象的访问代理模式是常用的结构型设计模式之一，在Java RMI、Web Service、Spring AOP等技术和框架中都使用了代理模式 2、代理模式结构 Subject&a…

阅读更多...

解析 Spring 框架中的三种 BeanName 生成策略

解析 Spring 框架中的三种 BeanName 生成策略

在 Spring 框架中，定义 Bean 时不一定需要指定名称，Spring 会智能生成默认名称。本文将介绍 Spring 的三种 BeanName 生成器，包括在 XML 配置、Java 注解和组件扫描中使用的情况，并解释它们如何自动创建和管理 Bean 名称。 1. Be…

阅读更多...

Nodejs 第七十七章（MQ高级）

Nodejs 第七十七章（MQ高级）

MQ介绍和基本使用在75章介绍过了，不再重复 MQ高级用法-延时消息什么是延时消息? Producer 将消息发送到 MQ 服务端，但并不期望这条消息立马投递，而是延迟一定时间后才投递到 Consumer 进行消费，该消息即延时消息插件安装 R…

阅读更多...

业务安全蓝军测评标准解读—业务安全体系化

业务安全蓝军测评标准解读—业务安全体系化

目录 1.前言 2.业务蓝军测评标准 2.1 业务安全脆弱性评分（ISVS） 2.2 ISVS评分的参考意义 2.3 纵向对比 2.4 横向对比 3.业务蓝军测评案例 3.1 APP虚假安装案例 3.1.1 定义测评对象和攻击目标 3.1.2 制定攻击方案 3.1.3 执行攻击并评估 3.2 人脸识别绕过案例 3.2.…

阅读更多...

STM32硬件接口I2C应用（基于MP6050）

STM32硬件接口I2C应用（基于MP6050）

目录概述 1 STM32Cube控制配置I2C 1.1 I2C参数配置 1.2 使用STM32Cube产生工程 2 HAL库函数介绍 2.1 初始化函数 2.2 写数据函数 2.3 读数据函数 3 认识MP6050 3.1 MP6050功能介绍 3.2 加速计测量寄存器编辑3.3 温度计量寄存器 3.4 陀螺仪测量寄存器 4 MP60…

阅读更多...

微信小程序组件传值

微信小程序组件传值

虽然微信小程序是比较轻量的，但是还是拥有组件的这是文件的基本目录我们的代码基本都在pages和components文件夹中在component中创建组件在component中 ，创建一个目录我创建了一个 head目录用于配置头部信息我在这里创建了一个头部组件&…

阅读更多...

linux-计划任务

linux-计划任务

作用：定时自动完成特定的工作计划任务的分类一次性的计划任务：例如下周三对文档的重要文件备份一次周期性的计划任务：每天12:00创建一个文件命令一次性的任务计划 at batch 周期性计划任务 crontab anacron 一次性计划任务 …

阅读更多...

Github 2024-06-12 C开源项目日报 Top10

Github 2024-06-12 C开源项目日报 Top10

根据Github Trendings的统计，今日(2024-06-12统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量C项目10PHP项目1PLpgSQL项目1C++项目1Ventoy: 100%开源的可启动USB解决方案创建周期：1534 天开发语言：C协议类型：GNU General Public Licen…

阅读更多...

品牌与产品：消费者决策的经济逻辑与品牌宣传的战略意义

品牌与产品：消费者决策的经济逻辑与品牌宣传的战略意义

在当今日益全球化的经济环境中，品牌与产品之间的关系对于企业的成功与否起着至关重要的作用。然而，在消费者做出购买决策时，他们到底是在选择产品本身，还是在选择附着在产品之上的品牌价值？同样，当客户选择…

阅读更多...

最新文章

推荐文章