TextRank关键词提取算法

参考:百度AI Studio课程_学习成就梦想,AI遇见未来_AI课程 - 百度AI Studio - 人工智能学习与实训社区 (baidu.com)

1.关键词提取算法分类

1.有监督

  •  将关键词提取问题转换成二分类问题,判断每个候选关键词是否为关键词
  • 该类算法,需要一个标注好关键词的文档集合来训练分类模型

2.半监督

  • 需要少量的训练数据,利用这些训练数据来构建关键词提取模型
  • 基于模型对 待处理文本 进行关键词提取
  • 提取后,把这些关键词进行人工过滤,将过滤得到的关键词加入到训练集中,重新训练模型

3.无监督

  • 不需要人工标注的训练集
  • 利用某些方法来发现文本中比较重要的词作为关键词,从而进行关键词提取
    • 基于词图模型的关键词提取
      • PageRank、TextRank
    • 基于统计特征的关键词提取
      • TF、TF-IDF
    • 基于主题模型的关键词提取
      • LDA、LSA、LSI

2.PageRank算法

1. 来源

        Google 创始人拉里·佩奇和谢尔盖·布林于 1997 年构建早期的搜索系统原型时提出的链接分析算法,通过计算网页链接的数量和质量来粗略估计网页的重要性

2.核心思想

  • 链接数量:如果一个网页被很多其他网页链接到,说明这个网页比较重要。也就是PageRank的值会相对较高
  • 链接质量:如果一个PageRank值很高的网页链接到其它网页,那么这个网页的PageRank值会响应地提高。

3.基本原理

        1.先将整个万维网看作是一张有向图,网页构成了图中的节点.每个节点额权重作为其重要性的度量。

        2.如果一个节点由很多其它节点指向它,那么它就很重要。同样的如果这个很重要的节点,它的外链数很少,那么这个被链接的点显然也很重要。

4.算法流程

        1.给每个网页一个PageRank值

        2.通过算法不断更新迭代,直到达到平稳分布为止。

3.TextRank算法

1.特点

        TextRank算法构造的网络是无向有权图。

        除了考虑链接句的重要性之外,还考虑两个句子之间的相似性。

        计算每个句子给它链接句的贡献时,是通过计算权重占总权重的比例来分配的。

        这里的权重即指句子之间的相似度,可通过编辑距离、余弦相似度等来进行计算。

2.总体思想

        1.构建一张关系图来表示文本、词语以及其他实体。

        2. 词语、词语集合、整个句子等都可以作为图中的顶点

        3.在这些顶点之间建立联系(比如词序关系、语义关系、内容相似度等),就能够构建一张合适的关系图。

3.算法流程

        1.将原文本分割成句子。

        2.对每个句子进行分词,并做词性标记,然后去除停用词,只保留指定词性的词(如名词、动词、形容词)

        3.构建词图。

                1.节点集合由以上步骤生成的词组成。

                2.然后根据共现关系,构造任意两个节点之间的边。

                        仅当两个节点对应的词在长度为K的窗口中共现时,它们之间存在边

                        其中,K表示窗口大 小 ,即最多共现K个单词,一般K取2

                        补充共现关系:共同出现的关系。

         4.迭代计算各个节点的权重,直至收敛,得到各节点重要性的分值

        5.对各个节点的权重进行倒序排序,得到最重要的N个单词,作为top-N关键词进行输出。

        6.在原文本中标记top-N关键词,若它们形成了相邻词组,则作为关键词词组提取出来。

4.TextRank关键词提取案例

1.使用jieba分词

用法:jieba.analyse.extract_tags(sentence,topK=5,withWeight=True,allowPOS=())

  • sentence:待提取关键词的原文本
  • topK:返回关键词的数量,重要性从高到低排序
  • withWeight:是否同时返回每个关键词的权重
  • allowPOS:词性过滤,为空表示不过滤,若提供则返回符合词性要求的关键字。

举个例子:

def jieba_test(sentence):result=jieba.analyse.extract_tags(sentence,5,withWeight=True,allowPOS=())print("jieba分词得到的关键词和权重")for i in result:print(i)
if __name__=='__main__':sentence="分词就是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。"jieba_test(sentence)TextRank4zh_test(sentence)

结果截图:

 2.使用TextRank4zh

1.先导入包 pip install textrank4zh

2.调用函数

        1.analyze函数:对文本进行分析

        2.get_keywords函数:获取最重要的关键词

举个例子: 

def TextRank4zh_test(sentence):tr4w=TextRank4Keyword()tr4w.analyze(sentence,True,5)print("TextRank4zh_test方法得到的关键词")for item in tr4w.get_keywords(5,word_min_len=1):print(item)
if __name__=='__main__':sentence="分词就是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程。中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。"jieba_test(sentence)TextRank4zh_test(sentence)

结果截图:

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/51281.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全网最详细中英文ChatGPT-GPT-4示例文档-从0到1快速入门关键词提取应用——官网推荐的48种最佳应用场景(附python/node.js/curl命令源代码,小白也能学)

从0到1快速入门关键词提取应用场景 Introduce 简介setting 设置Prompt 提示Sample response 回复样本API request 接口请求python接口请求示例node.js接口请求示例curl命令示例json格式示例 其它资料下载 ChatGPT是目前最先进的AI聊天机器人,它能够理解图片和文字&a…

马斯克的Starship,除了“大”还有什么呢?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 种种迹象表明,由ChatGPT引发的算力军备竞赛已经悄然而至了。 终于,到了检验人类最大火箭发射的时候了。 2023年4月17日,SpaceX将其大型深空火箭Starship发射升空,发射地点为Sp…

细思极恐!GPT-4太强,发明者们也不懂!智能到底是怎么突然「涌现」的?

本文来源 新智元 编辑:LRS 【新智元导读】不可解释的智能,未来该如何发展? 2023年至今,ChatGPT和GPT-4始终霸占在热搜榜上,一方面外行人都在惊叹于AI怎么突然如此强大,会不会革了「打工人」的命&#xf…

ChatGPT真的像说的那么神,什么都能做吗?

神到不至于,但确实给我的工作生活带来不少便利! 我用的是LintCode刷题网里面自带的这个ChatGPT,不花钱就能直接用! 像用它来解决不会的LeetCode题,动动手指解析秒出,对于我这种经常刷题的人来说就比较方便…

textarea输入换行字符提交给后台后,前台获取数据没有换行

解决方案&#xff1a; 需要提交数据库之前把textarea中的换行字符转换为<br>存储到数据库。 当读取的时候在把<br> 替换成textarea的换行符\n就好了 注意&#xff1a;使用replace 方法的时候需要用正则表达式&#xff0c;否则只能替换第一个换行 例如&#xff…

input按回车换行

需求描述&#xff1a;页面是table里面嵌入input,用户要求按回车去下一个input 之前由于用到elementUI的,用于改变许多类型&#xff0c;之后就自己用原生的input去实现 具体代码&#xff1a; <inputtype"number":ref"ipt index":class"ipt index…

enter无法换行

第一种方法&#xff1a;按住window Insert第二种方法&#xff1a;按住Fn Insert

Notepad++显示所有字符:空格换行

因项目需要&#xff0c;写了一个脚本&#xff0c;在windows下&#xff0c;可以正常运行。Push到设备后&#xff0c;报错。 经过Debug, 发现将脚本中的CRLF&#xff0c;改为LF, OK notepad 显示全字符&#xff0c;设置方法&#xff1a; 英文版&#xff1a;View -> Show Sy…

天猫精灵,还缺点啥?

我也是99买的天猫精灵&#xff0c;马大侠在下一盘大棋。也用了京东的叮咚&#xff08;感觉应该是合作开发而已&#xff0c;纯是为了应景&#xff0c;你有我有全都有而已&#xff09;&#xff0c;体验感不行&#xff0c;而且居然这个青春版还不能语音控制了&#xff0c;只能手机…

天猫精灵打开电脑 语音控制电脑

“天猫精灵” “哎&#xff0c;我在&#xff01;” “打开电脑” 上了一天班&#xff0c;回到家就想静静的玩会游戏&#xff0c;吼一句天猫精灵&#xff0c;立马帮你开机&#xff0c;多么舒服装x的体验。然而现实是骨感的&#xff0c;精灵无此功能&#xff0c;网上有人让弄个智…

亲测超好用的一款流程图制作软件(内含制图技巧分享)

什么是流程图&#xff1f;流程图是思维导图的一种图形模式&#xff0c;通过固定的流程和图形组合而成&#xff0c;通常应用于IT业、建筑业、数字统计行业中。因为思维导图慢慢热门起来&#xff0c;所以其他领域也都开始慢慢学习这款思维工具&#xff0c;并通过思维导图工具整理…

7款流程图制作软件大盘点!轻松绘制流程图

流程图可能是我们使用最广泛的一种图形图表&#xff0c;几乎在各个领域都会用到&#xff0c;诸如系统流程图、产品流程图、数据流程图……借助流程图&#xff0c;我们可以将事物的结构、任务的进程、甚至是算法的思路都有效视觉化。 流程图的广泛应用&#xff0c;也直接催生出…

如何做流程图?这几个实用的制作流程图方法分享给你

说到流程图的制作&#xff0c;相信大家都并不陌生&#xff0c;在日常的工作和学习中&#xff0c;我们都会根据需求接触到各种各样的流程图&#xff0c;有时还要自己动手绘制流程图并使用&#xff0c;但你是否会因为不会绘制流程图而感到苦恼呢&#xff1f;没关系&#xff0c;今…

ChatGPT一分钟做流程图

ChatGPT一分钟做流程图它能不能帮我们制作流程图呢&#xff1f;必须是可以的&#xff0c;今天我们再来介绍一个如何用ChatGPT快速制作流程图的方法。 下面以PowerBI分析流程为例&#xff0c;先向ChatGPT进行提问&#xff1a; 你是一个高级数据分析师&#xff0c;熟悉数据分析…

chatgpt赋能python:用Python计算球的表面积

用Python计算球的表面积 简介 球是一个三维几何体&#xff0c;它的表面积是一个重要的物理量。计算球的表面积通常需要使用高等数学公式&#xff0c;而Python可以很方便地进行数学计算&#xff0c;因此在计算球的表面积时&#xff0c;Python也是一种十分有用的工具。 本文将…

chatgpt赋能python:**Python计算s=a+aa+aaa的方法**

Python 计算 saaaaaa 的方法 Python 是一种高级编程语言&#xff0c;它的简单易学、可读性强、语法简单、运行效率高等特点受到了越来越多的程序员的关注和喜爱。在 Python 中&#xff0c;我们可以使用简单的代码计算多种复杂的数学问题。下面&#xff0c;我们将介绍如何使用 …

chatgpt赋能python:Python最大公约数计算代码

Python最大公约数计算代码 Python是一种高级编程语言&#xff0c;广泛应用于科学、工程和大数据分析领域。它具有简单易学、灵活性强、代码可读性高等优点&#xff0c;因此在软件开发和数据分析等领域得到了广泛的应用。Python不仅有丰富的库和工具&#xff0c;还有许多开发者…

chatgpt赋能python:Python中如何使用三角函数

Python中如何使用三角函数 三角函数是学习高等数学和物理学中不可缺少的一部分。在Python中&#xff0c;我们可以轻松地使用三角函数来计算角度、距离和速度等参数。本文将介绍Python中的三角函数&#xff0c;包括sin、cos和tan&#xff0c;以及如何使用它们进行计算。 1. 什…

chatgpt赋能python:Python中的三角函数介绍

Python中的三角函数介绍 Python作为一种高级编程语言&#xff0c;可以处理基础算术运算、三角函数等高等数学的操作。其中&#xff0c;三角函数是常用的数学函数之一&#xff0c;Pyhon中的三角函数包括正弦函数、余弦函数、正切函数等。 正弦函数 正弦函数在三角学中是最基本…

chatgpt赋能python:Python科学计算利器:Numpy

Python科学计算利器&#xff1a;Numpy Python是一门广受欢迎的编程语言&#xff0c;得益于其简洁易读、易学易用、可读性高等特点&#xff0c;被广泛应用于各个领域。在科学计算领域&#xff0c;Python也有着非常强大的工具包&#xff0c;其中Numpy是一个备受关注的库。 Nump…