LiteratureReading:[2016] Enriching Word Vectors with Subword Information

文章目录

  • 一、文献简明(zero)
  • 二、快速预览(first)
    • 1、标题分析
    • 2、作者介绍
    • 3、引用数
    • 4、摘要分析
      • (1)翻译
      • (2)分析
    • 5、总结分析
      • (1)翻译
      • (2)分析
    • 6、部分图表
    • 7、引言分析
      • (1)翻译
      • (2)分析
    • 8、标题结构
    • 9、参考文献
  • 三、重点阅读(second)
  • 四、深入理解(third)
  • 五、技术复现(forth)

一、文献简明(zero)

领域:NLP
标题:[2016] Enriching Word Vectors with Subword Information(用子词信息丰富词向量)
作者:Bojanowski et al.

贡献:提出了fastText模型,利用子词信息解决未登录词问题,提升了词向量的泛化能力。
链接:原文

二、快速预览(first)

1、标题分析

标题“Enriching Word Vectors with Subword Information”直接表明了文章的核心内容和研究目标,即通过引入子词(subword)信息来丰富词向量。这种方法与传统的词向量模型不同,它不仅为每个独立的单词分配一个向量,而且还利用单词的字符n-gram来表示单词。这样的表示方法可以捕捉到单词的形态学信息,对于处理罕见词、合成词以及跨语言的词向量学习尤其有用。此外,这种方法允许模型快速地在大型语料库上训练,并能够为训练数据中未出现的单词生成词向量,这在自然语言处理任务中非常有价值。

2、作者介绍

  • Piotr Bojanowski:名字后有星号(*),可能表示他是论文的主要作者或通讯作者。
  • Edouard Grave:名字后有星号(*),同样可能表示他是论文的主要作者或通讯作者。
  • Armand JoulinTomas Mikolov:这两位作者没有特别的标记,表明他们也是论文的共同作者。

他们所属的机构是 Facebook AI Research,即 Facebook 的人工智能研究部门,这是一个专注于人工智能和机器学习研究的团队。

联系邮箱是 {bojanowski, egrave, ajoulin, tmikolov}@fb.com,这意味着每位作者的邮箱地址由他们的名字组成,域名是 fb.com,这是 Facebook 公司使用的域名。

3、引用数

……

4、摘要分析

在这里插入图片描述

(1)翻译

连续词表示,通过在大型未标记语料库上训练,对许多自然语言处理任务非常有用。那些学习此类表示的流行模型忽略了词的形态学,通过为每个词分配一个不同的向量。这是一个限制,特别是对于词汇量大且有许多罕见词的语言。在本文中,我们提出了一种基于skipgram模型的新方法,其中每个词被表示为字符n-gram的集合。与每个字符n-gram相关联的向量表示;词被表示为这些表示的总和。我们的方法快速,允许在大型语料库上快速训练模型,并允许我们计算在训练数据中未出现的词的词表示。我们在九种不同的语言上评估了我们的词表示,包括词相似性和类比任务。通过与最近提出的形态学词表示进行比较,我们展示了我们的向量在这些任务上实现了最先进的性能。

(2)分析

  1. 问题陈述

    • 摘要开头指出了现有词表示方法的一个主要限制:它们忽略了词的形态学信息,这在处理词汇量大和含有许多罕见词的语言时是一个问题。
  2. 方法介绍

    • 作者提出了一种基于skipgram模型的新方法,该方法通过字符n-gram来表示词。这种方法允许模型捕捉到词的内部结构,从而更好地处理形态丰富的语言。
    • 每个字符n-gram都有一个向量表示,而词的表示则是这些向量的总和。这种方法不仅能够处理已知的词,还能生成未见过的词的表示。
  3. 优势

    • 该方法快速,能够在大型语料库上快速训练模型。
    • 它能够为训练数据中未出现的词生成词表示,这在处理新词或罕见词时非常有用。
  4. 评估

    • 作者在九种不同的语言上评估了他们的词表示方法,包括词相似性和类比任务。
    • 通过与最近提出的形态学词表示方法进行比较,作者展示了他们的方法在这些任务上实现了最先进的性能。
  5. 结论

    • 摘要最后总结了作者的方法在处理词相似性和类比任务上的优势,强调了其在自然语言处理任务中的潜力。

总的来说,这篇摘要清晰地介绍了作者的研究动机、提出的方法、方法的优势以及评估结果,为读者提供了一个全面的概述。

5、总结分析

在这里插入图片描述

(1)翻译

在本文中,我们研究了一种简单的方法来学习词表示,该方法考虑了子词信息。我们的方法将字符n-gram纳入skipgram模型中,这一想法与Schütze(1993)提出的观点相关。由于其简单性,我们的模型训练速度快,并且不需要任何预处理或监督。我们展示了我们的模型优于那些不考虑子词信息的基线方法,以及依赖形态学分析的方法。为了促进未来在子词表示学习方面的工作,我们将开源我们的模型实现。

(2)分析

  1. 研究目的和方法

    • 作者在本文中探讨了一种新的词表示学习方法,该方法通过考虑子词(subword)信息来改进传统的词表示。
    • 具体来说,作者将字符n-gram整合到skipgram模型中,这是一种词嵌入技术,用于生成词的向量表示。
  2. 方法的创新点

    • 这种方法的创新之处在于它考虑了词的内部结构(即子词信息),这有助于更好地理解和表示词的意义。
    • 作者提到这种方法与Schütze在1993年提出的观点相关,表明他们的工作是建立在先前研究的基础上的。
  3. 模型的优势

    • 由于模型的简单性,它训练速度快,不需要复杂的预处理或监督学习。
    • 作者通过实验展示了他们的模型在性能上优于不考虑子词信息的基线方法,以及那些依赖形态学分析的方法。
  4. 开放源代码

    • 作者承诺将开源他们的模型实现,这有助于其他研究人员复现结果、进行比较研究,并在此基础上进一步发展。
  5. 结论的总结

    • 作者总结了他们的研究成果,强调了模型在处理词表示时考虑子词信息的重要性,并展示了其在性能上的优势。
    • 开源模型实现的决定进一步强调了作者对促进学术界在这一领域发展的承诺。

总的来说,这篇结论部分清晰地总结了研究的主要贡献和发现,并提出了未来研究的方向。通过开源模型,作者为学术界提供了一个宝贵的资源,以促进进一步的研究和开发。

6、部分图表

在这里插入图片描述
这幅图展示了训练数据规模对模型性能的影响,具体通过Spearman秩相关系数来衡量。图中有两个子图,分别对应两种不同的数据集:

  1. (a) DE-Gur350:这个子图显示了在DE-Gur350数据集上的性能表现。图中有三条曲线,分别代表三种不同的模型或方法:

    • 蓝色曲线(cbow):表示使用连续词袋模型(Continuous Bag of Words)的性能。
    • 黄色曲线(sigsq):表示使用一种特定的模型或方法的性能。
    • 红色曲线(sigsq):表示使用另一种变体的sigsq模型的性能。
  2. (b) En-RW:这个子图显示了在En-RW数据集上的性能表现。同样有三条曲线,颜色和含义与(a)相同。

在两个子图中,横轴表示使用的数据百分比(从0%到100%),纵轴表示Spearman秩相关系数(从15到75)。Spearman秩相关系数是一种统计度量,用于评估两个变量之间的单调关系,值越高表示模型性能越好。

从图中可以看出:

  • 在两个数据集上,随着训练数据的增加,所有模型的性能都有所提高。
  • 在DE-Gur350数据集上,红色曲线(sigsq)的性能最好,其次是黄色曲线,最后是蓝色曲线。
  • 在En-RW数据集上,红色曲线(sigsq)的性能同样最好,但黄色和蓝色曲线的性能差距较小。

图例位于每个子图的右侧,帮助区分不同的曲线。图下方的说明文字解释了实验设置:使用不同规模的数据集来训练模型,并在维基百科的完整数据集的一个分数上进行训练。

7、引言分析

(1)翻译

学习词的连续表示在自然语言处理中有着悠久的历史(Rumelhart et al., 1988)。这些表示通常通过使用共现统计从大型未标记语料库中得出(Deerwester et al., 1990; Schütze, 1992; Lund and Burgess, 1996)。大量工作,被称为分布式语义学,已经研究了这些方法的性质(Turney et al., 2010; Baroni and Lenci, 2010)。在神经网络社区,Collobert 和 Weston(2008)提出使用前馈神经网络学习词嵌入,通过基于左右两侧的两个词预测一个词。最近,Mikolov 等人(2013b)提出了简单的对数双线性模型,以高效地在非常大的语料库上学习词的连续表示。

这些技术中的大多数通过一个不同的向量表示词汇表中的每个词,而没有参数共享。特别是,它们忽略了词的内部结构,这对于形态丰富的语言(如土耳其语或芬兰语)来说是一个重要的限制。例如,在法语或西班牙语中,大多数动词有四十多种不同的屈折形式,而芬兰语有十五种名词格。这些语言包含许多在训练语料库中很少出现(或根本不出现)的词形,使得学习好的词表示变得困难。因为许多词形遵循规则,所以可以通过使用字符级信息来改善形态丰富的语言的向量表示。

在本文中,我们提出学习字符n-gram的表示,并将其作为n-gram向量的和来表示词。我们的主要贡献是引入了连续skipgram模型(Mikolov et al., 2013b)的扩展,该模型考虑了子词信息。我们在展示不同形态的九种语言上评估了这个模型,展示了我们方法的好处。

(2)分析

  1. 背景介绍

    • 引言部分首先介绍了词的连续表示在自然语言处理中的重要性和历史背景。
    • 提到了分布式语义学和早期的词嵌入方法,如Collobert和Weston(2008)以及Mikolov等人(2013b)的工作。
  2. 现有方法的局限性

    • 现有方法通常通过为每个词分配一个独立的向量来表示词,忽略了词的内部结构。
    • 这种表示方法在处理形态丰富的语言时存在局限性,因为这些语言中存在大量的词形变化,而这些变化在训练数据中可能很少出现。
  3. 提出的解决方案

    • 作者提出了一种新的方法,通过学习字符n-gram的表示,并将其作为n-gram向量的和来表示词。
    • 这种方法考虑了子词信息,可以更好地处理形态丰富的语言。
  4. 研究贡献

    • 作者的主要贡献是引入了连续skipgram模型的扩展,该模型考虑了子词信息。
    • 作者在九种不同的语言上评估了这个模型,展示了其在处理形态丰富的语言时的优势。
  5. 研究意义

    • 通过引入子词信息,作者的方法可以更好地处理形态丰富的语言,这对于自然语言处理中的许多任务(如词相似性、类比任务等)具有重要意义。
    • 开源模型实现也有助于促进未来在子词表示学习方面的研究。

8、标题结构

  1. Enriching Word Vectors with Subword Information - 用子词信息丰富词向量
  2. Abstract - 摘要
  3. 1 Introduction - 1 引言
  4. 2 Related work - 2 相关工作
  5. 3 Model - 3 模型
    • 3.1 General model - 3.1 通用模型
    • 3.2 Subword model - 3.2 子词模型
  6. 4 Experimental setup - 4 实验设置
    • 4.1 Baseline - 4.1 基线
    • 4.2 Optimization - 4.2 优化
    • 4.3 Implementation details - 4.3 实现细节
    • 4.4 Datasets - 4.4 数据集
  7. 5 Results - 5 结果
    • 5.1 Human similarity judgement - 5.1 人类相似性判断
    • 5.2 Word analogy tasks - 5.2 词类比任务
    • 5.3 Comparison with morphological representations - 5.3 与形态学表示的比较
    • 5.4 Effect of the size of the training data - 5.4 训练数据规模的影响
    • 5.5 Effect of the size of n-grams - 5.5 n-gram大小的影响
    • 5.6 Language modeling - 5.6 语言建模
  8. 6 Qualitative analysis - 6 定性分析
    • 6.1 Nearest neighbors - 6.1 最近邻
    • 6.2 Character n-grams and morphemes - 6.2 字符n-gram和词素
    • 6.3 Word similarity for OOV words - 6.3 未见词的词相似性
  9. 7 Conclusion - 7 结论
  10. Acknowledgements - 致谢
  11. References - 参考文献

9、参考文献

  1. Andrei Alexandrescu and Katrin Kirchhoff. 2006. Factored neural language models. In Proc. NAACL.
    安德烈·亚历山德雷斯库和卡特琳·基尔霍夫。2006年。分解神经语言模型。载于北美计算语言学协会会议论文集。

  2. Miguel Ballesteros, Chris Dyer, and Noah A. Smith. 2015. Improved transition-based parsing by modeling characters instead of words with LSTMs. In Proc. EMNLP.
    米格尔·巴列斯特罗斯,克里斯·戴尔和诺亚·A·史密斯。2015年。通过用LSTM对字符而非单词进行建模来改进基于转换的解析。载于自然语言处理经验方法会议论文集。

  3. Marco Baroni and Alessandro Lenci. 2010. Distributional memory: A general framework for corpus-based semantics. Computational Linguistics, 36(4):673– 721.
    马可·巴罗尼和亚历山德罗·伦奇。2010年。分布式记忆:基于语料库的语义的一般框架。计算语言学,36(4):673–721。

  4. Giacomo Berardi, Andrea Esuli, and Diego Marcheggiani. 2015. Word embeddings go to Italy: a comparison of models and training datasets. Italian Information Retrieval Workshop.
    贾科莫·贝拉迪,安德烈·埃苏利和迭戈·马尔凯贾尼。2015年。词嵌入进入意大利:模型和训练数据集的比较。意大利信息检索研讨会。

  5. Piotr Bojanowski, Armand Joulin, and Tomáš Mikolov. 2015. Alternative structures for character-level RNNs. In Proc. ICLR.
    彼得·博扬诺夫斯基,阿曼德·朱林和托马什·米科洛夫。2015年。字符级RNN的替代结构。载于国际学习表示会议论文集。

  6. Jan A. Botha and Phil Blunsom. 2014. Compositional morphology for word representations and language modelling. In Proc. ICML.
    扬·A·博塔和菲尔·布伦索姆。2014年。用于词表示和语言建模的组合形态学。载于国际机器学习会议论文集。

  7. Xinxiong Chen, Lei Xu, Zhiyuan Liu, Maosong Sun, and Huanbo Luan. 2015. Joint learning of character and word embeddings. In Proc. IJCAI.
    陈新雄,徐磊,刘志远,孙茂松和栾欢波。2015年。字符和词嵌入的联合学习。载于国际人工智能联合会议论文集。

  8. Grzegorz Chrupała. 2014. Normalizing tweets with edit scripts and recurrent neural embeddings. In Proc. ACL.
    格热戈日·赫鲁帕拉。2014年。使用编辑脚本和循环神经嵌入对推文进行规范化。载于计算语言学协会会议论文集。

  9. Ronan Collobert and Jason Weston. 2008. A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proc. ICML.
    罗南·科洛贝尔和杰森·韦斯顿。2008年。自然语言处理的统一架构:具有多任务学习的深度神经网络。载于国际机器学习会议论文集。

  10. Ryan Cotterell and Hinrich Schütze. 2015. Morphological word-embeddings. In Proc. NAACL.
    瑞安·科特雷尔和欣里希·舒尔策。2015年。形态学词嵌入。载于北美计算语言学协会会议论文集。

  11. Qing Cui, Bin Gao, Jiang Bian, Siyu Qiu, Hanjun Dai, and Tie-Yan Liu. 2015. KNET: A general framework for learning word embedding using morphological knowledge. ACM Transactions on Information Systems, 34(1):4:1–4:25.
    崔青,高斌,边江,邱思宇,戴汉军和刘铁岩。2015年。KNET:使用形态学知识学习词嵌入的通用框架。信息系统学报,34(1):4:1–4:25。

  12. Scott Deerwester, Susan T. Dumais, George W. Furnas, Thomas K. Landauer, and Richard Harshman. 1990. Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6):391– 407.
    斯科特·迪尔沃斯特,苏珊·杜迈斯,乔治·弗纳斯,托马斯·兰道尔和理查德·哈什曼。1990年。通过潜在语义分析进行索引。美国信息科学学会学报,41(6):391–407。

  13. Cicero Nogueira dos Santos and Maira Gatti. 2014. Deep convolutional neural networks for sentiment analysis of short texts. In Proc. COLING.
    西塞罗·努热拉·多斯桑托斯和迈拉·加蒂。2014年。用于短文本情感分析的深度卷积神经网络。载于计算语言学国际会议论文集。

  14. Cicero Nogueira dos Santos and Bianca Zadrozny. 2014. Learning character-level representations for part-of-speech tagging. In Proc. ICML.
    西塞罗·努热拉·多斯桑托斯和比安卡·扎德罗兹尼。2014年。学习字符级表示以进行词性标注。载于国际机器学习会议论文集。

  15. Lev Finkelstein, Evgeniy Gabrilovich, Yossi Matias, Ehud Rivlin, Zach Solan, Gadi Wolfman, and Eytan Ruppin. 2001. Placing search in context: The concept revisited. In Proc. WWW.
    列夫·芬克尔斯坦,叶夫根尼·加布里洛维奇,约西·马蒂亚斯,埃胡德·里夫林,扎克·索兰,加迪·沃尔夫曼和艾坦·鲁平。2001年。在上下文中放置搜索:概念再探。载于万维网会议论文集。

  16. Alex Graves. 2013. Generating sequences with recurrent neural networks. arXiv preprint arXiv:1308.0850.
    亚历克斯·格雷夫斯。2013年。使用循环神经网络生成序列。arXiv预印本 arXiv:1308.0850。

  17. Iryna Gurevych. 2005. Using the structure of a conceptual network in computing semantic relatedness. In Proc. IJCNLP.
    伊琳娜·古雷维奇。2005年。在计算语义相关性中使用概念网络的结构。载于国际计算自然语言处理会议论文集。

  18. Zellig S Harris. 1954. Distributional structure. Word, 10(2-3):146–162.
    泽利格·S·哈里斯。1954年。分布式结构。词语,10(2-3):146–162。

  19. Samer Hassan and Rada Mihalcea. 2009. Cross-lingual semantic relatedness using encyclopedic knowledge. In Proc. EMNLP.
    萨默·哈桑和拉达·米哈尔切亚。2009年。使用百科全书知识进行跨语言语义相关性。载于自然语言处理经验方法会议论文集。

  20. Colette Joubarne and Diana Inkpen. 2011. Comparison of semantic similarity for different languages using the google n-gram corpus and second-order co-occurrence measures. In Proc. Canadian Conference on Artificial Intelligence.
    科莱特·朱巴恩和戴安娜·因克潘。2011年。使用谷歌n-gram语料库和二阶共现度量比较不同语言的语义相似性。载于加拿大人工智能会议论文集。

  21. Yoon Kim, Yacine Jernite, David Sontag, and Alexander M Rush. 2016. Character-aware neural language models. In Proc. AAAI.
    尹金,亚辛·杰尼特,大卫·索塔格,亚历山大·M·拉什。2016年。字符感知神经语言模型。载于美国人工智能协会会议论文集。

  22. Maximilian Köper, Christian Scheible, and Sabine Schulte im Walde. 2015. Multilingual reliability and “semantic” structure of continuous word spaces. Proc. IWCS 2015.
    马克西米利安·克佩尔,克里斯蒂安·谢布尔,萨宾·舒尔特·伊姆·瓦尔德。2015年。连续词空间的多语言可靠性和“语义”结构。载于国际词义计算研讨会论文集。

  23. Angeliki Lazaridou, Marco Marelli, Roberto Zamparelli, and Marco Baroni. 2013. Compositionally derived representations of morphologically complex words in distributional semantics. In Proc. ACL.
    安杰莉基·拉扎里杜,马可·马雷利,罗伯托·赞帕雷利,马可·巴罗尼。2013年。分布式语义中形态复杂词的组合派生表示。载于计算语言学协会会议论文集。

  24. Wang Ling, Chris Dyer, Alan W. Black, Isabel Trancoso, Ramon Fermandez, Silvio Amir, Luis Marujo, and Tiago Luis. 2015. Finding function in form: Compositional character models for open vocabulary word representation. In Proc. EMNLP.
    王凌,克里斯·戴尔,艾伦·W·布莱克,伊莎贝尔·特兰科索,拉蒙·费尔南德斯,西尔维奥·阿米尔,路易斯·马鲁霍,蒂亚戈·路易斯。2015年。在形式中寻找功能:开放词汇词表示的组合字符模型。载于自然语言处理经验方法会议论文集。

  25. Kevin Lund and Curt Burgess. 1996. Producing high-dimensional semantic spaces from lexical co-occurrence. Behavior Research Methods, Instruments, & Computers, 28(2):203–208.
    凯文·伦德和科特·伯吉斯。1996年。从词汇共现产生高维语义空间。行为研究方法、仪器与计算机,28(2):203–208。

  26. Minh-Thang Luong and Christopher D. Manning. 2016. Achieving open vocabulary neural machine translation with hybrid word-character models. In Proc. ACL.
    明堂·卢翁和克里斯托弗·D·曼宁。2016年。使用混合词字符模型实现开放词汇神经机器翻译。载于计算语言学协会会议论文集。

  27. Thang Luong, Richard Socher, and Christopher D. Manning. 2013. Better word representations with recursive neural networks for morphology. In Proc. CoNLL.
    堂·卢翁,理查德·索彻和克里斯托弗·D·曼宁。2013年。使用形态学递归神经网络获得更好的词表示。载于自然语言处理共指决议付会议论文集。

  28. Tomáš Mikolov, Ilya Sutskever, Anoop Deoras, Hai-Son Le, Stefan Kombrink, and Jan ˇCernocký. 2012. Subword language modeling with neural networks. Technical report, Faculty of Information Technology, Brno University of Technology.
    托马什·米科洛夫,伊利亚·苏茨克维尔,阿诺普·德奥拉斯,海森·勒,斯特凡·科姆布林克,扬·切诺科。2012年。使用神经网络进行子词语言建模。技术报告,布尔诺理工大学信息技术学院。

  29. Tomáš Mikolov, Kai Chen, Greg D. Corrado, and Jeffrey Dean. 2013a. Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.
    托马什·米科洛夫,凯·陈,格雷格·D·科拉多,杰弗里·迪恩。2013年。向量空间中词表示的有效估计。arXiv预印本 arXiv:1301.3781。

  30. Tomáš Mikolov, Ilya Sutskever, Kai Chen, Greg S. Corrado, and Jeff Dean. 2013b. Distributed representations of words and phrases and their compositionality. In Adv. NIPS.
    托马什·米科洛夫,伊利亚·苏茨克维尔,凯·陈,格雷格·S·科拉多,杰夫·迪恩。2013年。词和短语的分布式表示及其组合性。载于神经信息处理系统进展。

三、重点阅读(second)

四、深入理解(third)

五、技术复现(forth)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37102.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

前后端联调解决跨域问题的方案

引言 在前后端分离的开发模式中,前端和后端通常在不同的服务器或端口运行,这样就会面临跨域问题。跨域问题是指浏览器因安全限制阻止前端代码访问与当前网页源不同的域、协议或端口的资源。对于 Java 后端应用,我们可以通过配置 CORS&#x…

开源软件许可证冲突的原因和解决方法

1、什么是开源许可证以及许可证冲突产生的问题 开源软件许可证是一种法律文件,它规定了软件用户、分发者和修改者使用、复制、修改和分发开源软件的权利和义务。开源许可证是由软件的版权所有者(通常是开发者或开发团队)发布的,它…

python爬虫笔记(一)

文章目录 html基础标签和下划线无序列表和有序列表表格加边框 html的属性a标签(网站)target属性换行线和水平分割线 图片设置宽高width,height html区块——块元素与行内元素块元素与行内元素块元素举例行内元素举例 表单from标签type属性pla…

电脑节电模式怎么退出 分享5种解决方法

在使用电脑的过程中,许多用户为了节省电力,通常会选择开启电脑的节能模式。然而,在需要更高性能或进行图形密集型任务时,节能模式可能会限制系统的性能表现。这时,了解如何正确地关闭或调整节能设置就显得尤为重要了。…

AI学习——卷积神经网络(CNN)入门

作为人类,我们天生擅长“看”东西:一眼就能认出猫狗、分辨红绿灯、读懂朋友的表情……但计算机的“眼睛”最初是一片空白。直到卷积神经网络(CNN)​的出现,计算机才真正开始理解图像。今天,我们就用最通俗的…

2025年渗透测试面试题总结- shopee-安全工程师(题目+回答)

网络安全领域各种资源,学习文档,以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具,欢迎关注。 目录 shopee-安全工程师 信息安全相关Response头详解 1. 关键安全头及防御场景 Linux与Docker核心命令速查…

IntelliJ IDEA 中 Maven 的 `pom.xml` 变灰带横线?一文详解解决方法

前言 在使用 IntelliJ IDEA 进行 Java 开发时,如果你发现项目的 pom.xml 文件突然变成灰色并带有删除线,这可能是 Maven 的配置或项目结构出现了问题。 一、问题现象与原因分析 现象描述 文件变灰:pom.xml 在项目资源管理器中显示为灰色。…

Spring MVC 接口数据

访问路径设置 RequestMapping("springmvc/hello") 就是用来向handlerMapping中注册的方法注解! 秘书中设置路径和方法的对应关系,即RequestMapping("/springmvc/hello"),设置的是对外的访问地址, 路径设置 精准路径匹…

技术分享 | MySQL内存使用率高问题排查

本文为墨天轮数据库管理服务团队第51期技术分享,内容原创,如需转载请联系小墨(VX:modb666)并注明来源。 一、问题现象 问题实例mysql进程实际内存使用率过高 二、问题排查 2.1 参数检查 mysql版本 :8.0.…

【redis】什么是持久化之 RDB

什么是持久化 MySQL 的事务,有四个比较核心的特性: 原子性一致性持久性>持久化(说的一回事) 把数据存储在硬盘上>持久把数据存在内存上>不持久重启进程/重启主机之后,数据是否还存在 隔离性 Redis 是一个内存…

Python、MATLAB和PPT完成数学建模竞赛中的地图绘制

参加数学建模比赛时,很多题目——诸如统计类、数据挖掘类、环保类、建议类的题目总会涉及到地理相关的情景,往往要求我们制作与地图相关的可视化内容。如下图,这是21年亚太赛的那道塞罕坝的题目,期间涉及到温度、降水和森林覆盖率…

Python(冒泡排序、选择排序、插入法排序、快速排序,算法稳定性)

算法的稳定性 冒泡排序 # 冒泡排序 # 1 思想: 相邻位置两个元素比较, 前面的元素比后面的元素大则交换, 把最大的数给找到 # 经过一轮一轮的比较最终把序列给排序 # 2 关键点1: 两层for循环 外层循环控制多少轮 内层for循环控制比较次数 # 3 关键点2: 若遍历一遍没有数字…

【自用】NLP算法面经(5)

一、L1、L2正则化 正则化是机器学习中用于防止过拟合并提高模型泛化能力的技术。当模型过拟合时,它已经很好地学习了训练数据,甚至是训练数据中的噪声,所以可能无法在新的、未见过的数据上表现良好。 比如: 其中,x1和…

PyCharm安装redis,python安装redis,PyCharm使用失败问题

报错信息 Usage: D:\wb2\wbrj_pys\venv\Scripts\python.exe -m pip install [options] [package-index-options] … D:\wb2\wbrj_pys\venv\Scripts\python.exe -m pip install [options] -r [package-index-options] … D:\wb2\wbrj_pys\venv\Scripts\python.exe -m pip instal…

学习笔记|arduino uno r3|DS1307时钟芯片|Atmega328P| 设置时间|读取时间|无源晶振:DS1307时钟芯片实验

目录 芯片pinout: 实验器件: 实验连线 解决AVR 架构不支持 printf() 方法 使用GetTimeAndDate.ino设置时间: 使用SetTimeAndDate.ino设置时间: 芯片pinout: DS1307 是美国 DALLAS 公司推出的 I 总线接口实时时钟芯…

uniapp可拖拽消息数徽标draggable-badge,仿手机qq聊天列表未读数徽标动效

组件下载地址:https://ext.dcloud.net.cn/plugin?id22679 兼容性: 测试了h5和微信小程序,理论支持全平台,暂不支持pc端,不过可以自己修改事件兼容pc 使用uniapp仿写了一个手机qq聊天列表右侧未读数的徽标组件&#x…

【设计模式】策略模式

以下是格式优化后的Markdown文档,仅调整代码缩进,保持内容不变: 四、策略模式 策略(Strategy) 模式是一种行为型模式,其实现过程与模板方法模式非常类似——都 是以扩展的方式支持未来的变化。本章通过对一个具体范例的逐步重构…

STM32配套程序接线图

1 工程模板 2 LED闪烁 3LED流水灯 4蜂鸣器 5按键控制LED 6光敏传感器控制蜂鸣器 7OLED显示屏 8对射式红外传感器计次 9旋转编码器计次 10 定时器定时中断 11定时器外部时钟 12PWM驱动LED呼吸灯 13 PWM驱动舵机 14 PWM驱动直流电机 15输入捕获模式测频率 16PWMI模式测频率占空…

【C语言】使用结构体实现位段

一、位段 前面我们学习了结构体,位段的声明和结构体是一样的,其区别如下: 1、位段的成员必须是int 、unsigned int 、signed int 、在C99中位段的成员的类型也可以选择其他类型。 2、位段的成员名后边有一个冒号和一个数字 如下&#xff…

【大模型系列篇】硅基智能开源数字人模型HeyGem.ai,开启数字人时刻

硅基智能开源数字人模型HeyGem.ai, 1秒克隆生成4K视频, 支持离线多语言, 开源72小时狂揽1.3k星, 目前已经获得3.4k星。 硅基智能正式宣布在GitHub开源全球TOP级数字人模型,同时发布基于该模型的同名数字人工具硅基数字人克隆的本地安装包,这一举措标志着…