建议自己做,写完再来对答案。答案可能存在极小部分错误,不保证一定正确。
一、选择题
1-10、C A D B D B C D A A
11-20、A A A C A B D B B A
21-30、B C C D D A C A C B
31-40、B B B C D A B B A A
41-50、B D B C A B B B B C
51-60、A D D B B C B B C A
61-70、C B A B B B D B C B
71-78、B B A D B A C B
二、判断题
1-10、F F T F F T T F F F
11-20、F T T F T F F F T T
21-27、F T F F T T F
三、填空题
1-5、搜索引擎 输出门 Word2Vec 分布式 词
6-10、pytorch LSTM 分布式 深度学习 残差连接
11-15、GloVe 多头注意力 人名 细胞 多标签分类
16-20、join 正面 文本摘要 共现矩阵 生成
21-25、numpy.dot() RNN 二元模型 余弦相似度 位置编码
26-30、长距离依赖 TF-IDF 自注意力机制 稀疏向量表示 SGD
31-35、BERT 多头注意力机制 Hugging Face 精确 softmax(Qi*Ki^T)*Vi
36-40、TensorFlow 一 隐状态 三元模型 门控
41-45、相似性 目标词 BART 模型库(Hub库) 多分类
46-47、精确模式 召回率
四、简答题
1、(1)分词:句子1:“我 喜欢 学习 自然语言处理”;句子2:“自然语言处理 是 我 喜欢 的 课程”
构建词典:词典:{"我", "喜欢", "学习", "自然语言处理"}
编码:"我" -> [1, 0, 0, 0, 0] "学习" -> [0, 0, 1, 0] "喜欢" -> [0, 1, 0, 0] "自然语言处理"-> [0, 0, 0, 1]
生成特征向量:我喜欢学习自然语言处理:[1,1,1,1]
2、自注意机制的核心公式为:
自注意力机制的计算步骤为(1)初始化(2)计算相似度(3)归一化(4)加权求和
3、自然语言处理有两个核心方向:自然语言理解(NLU)和自然语言生成(NLG)。 (2分)
(1)自然语言理解
自然语言理解的目标是使计算机能够“理解”人类的语言,主要集中于解析、分析
和提取文本中的信息。NLU技术通常用于语义分析、信息提取、情感分析、命名实体识别。
(2)自然语言生成
自然语言生成的目标是使计算机能够生成具有逻辑和语法正确的自然语言文本。NLG技术通常用于文本摘要、对话系统、文本生成。
4、BERT模型在预训练过程中采用了掩码语言模型(MLM)和下一句预测(NSP)两种
策略。
(1)掩蔽语言模型(MLM)在训练过程中,BERT随机掩蔽输入句子中的某些单词(通常是15%),然后要求模型预测这些被掩蔽的单词。此策略使模型能够从上下文中学习词的表示,而不仅仅是从左到右或从右到左的顺序。这种双向的训练方式使BERT能够更好地理解上下文。
(2)BERT还通过下一句预测(NSP)这一策略训练模型理解句子之间的关系。在训练时,模型接受成对的句子,任务是判断第二个句子是否为第一个句子的后续句子。这个任务有助于模型学习句子间的逻辑关系,提升了模型在句子级任务(如问答和自然语言推理)上的表现。
5、该题答案不唯一,只要最终值z=w1*x1+w2*x2与θ的比较和对应真值表的值一致均正确。
6、CBOW(Continuous Bag of Words)和Skip-gram
相同点:(1)两者都是基于神经网络的模型,通过大规模的文本数据训练,学习到词语的词向量。(2)都使用窗口大小来定义上下文,目标是捕捉词与词之间的关系和相似性。
不同点:(1)目标不同:CBOW 通过上下文预测目标词, Skip-gram 通过目标词预测上下文。(2)计算复杂度:在训练时,Skip-gram 适合于低频词,而 CBOW 适合于高频词。Skip-gram 对低频词的学习效果更好,但计算开销较大;而 CBOW 对高频词的学习效果更好。
7、(1)遗忘门决定哪些信息将被丢弃;
(2)输入门决定哪些信息将被添加到细胞状态;
(3)输出门决定最终的隐藏状态。
8、(1)输入表示 (2)计算注意力得分(3)应用softmax函数(4)加权和(5)输出
9、TF-IDF(Term Frequency-Inverse Document Frequency)工作原理分为两部分:TF(Term Frequency):表示某个词在文档中出现的频率,这部分反映了词在特定文档中的重要性,频率越高,重要性越大。
IDF(Inverse Document Frequency):衡量某个词在整个文档集合中的重要性。IDF值越高,说明该词越少见,具有更高的区分度。
10、(1)Sigmoid 激活函数。优点:输出范围在 (0, 1),适合处理二分类问题。具有平滑的导数,便于梯度计算。缺点:容易导致梯度消失(vanishing gradient)问题,尤其在深层网络中。输出不是零均值,可能导致训练过程中的不稳定。
(2)ReLU(Rectified Linear Unit)激活函数。优点:计算简单,训练速度快。有效缓解梯度消失问题,使得深层网络能够更快地收敛。缺点:在训练过程中,某些神经元可能永远不被激活(dying ReLU问题),导致信息损失。
(3)Tanh 激活函数。优点:输出范围在 (-1, 1),有助于数据中心化,通常收敛速度比Sigmoid快。相对于Sigmoid,Tanh函数的梯度较大,缓解了梯度消失问题。缺点:仍然存在梯度消失问题,尤其在深层网络中。计算相对复杂,速度比ReLU慢。