文本分析|小白教程

在信息爆炸的时代,文本数据无处不在,如何从这些海量的文字中提炼出有价值的信息呢?答案就是——文本分析。文本分析,简单来说,就是对文本数据进行深度的研究和分析。它能够从看似普通的文字中,提取出主题、情感等信息,为后续的决策和应用提供有力支持。SPSSAU的文本分析模块可以一站式得到全部的文本分析结果。

一、文本分析软件工具

大学生必备的统计分析工具——SPSSAU在线数据分析软件,可以进行词云分析、文本情感分析、文本聚类分析、社会网络关系图绘制、LDA主题分析、新词发现、管理我的词库等文本分析。

1、如何进入文本分析?

1、SPSSAU搜索框进入

在SPSSAU主系统左上角处进行搜索,比如搜索‘文本’二字时,下拉中会提示文本分析模块,当然搜索其它的潜在关键词,比如情感分析、LDA、文本聚类等均可。
2、SPSSAU界面仪表盘进入

通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。

2、如何上传文本数据?

进入SPSSAU文本分析模块之后,首先需要上传文本数据。上传数据涉及以下内容:

  • 支持直接粘贴文本进行上传数据
  • 支持上传txt或excel格式数据
  • 上传文件最高限制为5M

用户可‘点击上传’自己的文本数据,在弹出对话框中,可实现直接粘贴文本进行上传或者上传txt/excel/csv文件等。如下图所示:

  • 数据格式说明

如果是通过excel格式(包括csv/xls/xlsx格式)时,只需要1列数据,该列数据中包括文本数据,将文本全部放置于A列中,A列不需要有标题信息。每行(即每个单元格)存在1个分析文本。如果是txt文档或者粘贴文本进行上传,那么系统会自动过滤掉空行数据,并且以回车键作为每行(即每个分析文本)标志。类似如下图所示:

3、如何进行分析?

上传文本数据后,接着则需要对该数据(项目)进行分析。点击‘开始分析’按钮,项目则开始进行分析。如果完成分析后,‘开始分析’按钮会展示为‘进入项目’,也会展示‘重新分析’按钮,此时点击‘进入项目’即可查看对应的文本分析分析结果,比如词云分析情况等。类似如下图所示:

【提示】:当前SPSSAU限制周会员及以上用户使用,仅购买1天的会员或者非会员无法使用文本分析模块功能,也无法上传文本数据。如果是购买SPSSAU权益号,那么其分配出来的账号或者会员均享受周会员权益,即可使用文本分析模块功能。

  • 文本分析结果

SPSSAU文本分析结果包括词云分析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库等。接下来分别进行简单介绍。

二、词云分析

文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf

1、词云分析

直观展示文本数据的关键词信息,默认是展示前1000个高频关键词、词频、以及出现行数。词云图默认展示前100个高频词,用户可自主设置该数字,也可修改词云风格和下载该词云图。

2、自定义词云

自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可对词云进行下载,词云风格设置等操作。

3、词定位

词定位可用于展示具体某个关键词在那些地方有过出现,比如本案例中‘城乡建设’这个关键词,研究者希望了解该关键词的具体出处信息等,可直接点击该词,然后查看具体信息。也可直接搜索想要查看的关键词,如下图所示:

4、tf-idf

tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。tf-idf指标及其对应词云图输出结果如下:

二、文本情感分析

SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析

1、按词情感分析

按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示。

情感分析使用情感词典进行情感得分计算,并且经过SPSSAU数据压缩化,将情感得分压缩在-1~1之间。关于情感方向的判断标准具体规则如下表:

SPSSAU输出结果如下:

如果有自定义情感词的需求,可点击‘自定义情感词’,也或者使用点击‘我的词库’-》情感词进行添加或者删除等。

2、按行情感分析

按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。SPSSAU输出结果如下:

三、文本聚类分析

SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类。

1、按词聚类分析


按词聚类分析是指将需要分析的关键词进行聚类分析,并且进行可视化展示,即针对关键词进行聚类,此处关键词可以自由选择。
默认情况下,系统会将词频靠前的20个关键词提取,并且得到其词向量值,并且其于词向量值进行聚类分析(具体为kmeans聚类),接着进行MDS分析,最终渲染出各个关键词的坐标定位信息,可视化展示词之间的聚类信息。
SPSSAU输出结果如下,图中不同的颜色代表不同的类别,其意味着各个关键词之间的类别区分:

2、按行聚类分析

不同于按词聚类分析,按行聚类分析是指以‘行’为单位,针对每行数据进行聚类分析(具体为kmeans聚类),并且计算出各‘行’数据的聚类类别,也可直接进行下载聚类类别信息。SPSSAU分析结果如下图所示:

四、社会网络关系图

社会网络关系图展示关键词之间的关系情况,此处的关系是指‘共词矩阵’,即两个关键词同时出现的频数情况。接下来将分别介绍‘共词矩阵’和‘社会网络关系图’

1、共词矩阵

下图中共10个关键词,第1行和第1列为关键词名称且完全对应。具体数据上,右下三角斜对角线为该词的词频。其它数字为‘共现’次数(每行‘共现’次数之和):

2、社会网络关系图

社会网络关系图将共词矩阵信息进行展示,包括是否有共词关系(共词次数>0则有共词关系,等于0则说明没有同时出现过),共词次数情况等。默认情况下,系统会选中排名前20的关键词进行共词矩阵构建和社会网络关系图呈现,用户也可自由“选择分析词”。

在社会网络关系图时,可使用线条粗细展示共词次数,越粗则表示共词次数越高,当然也可选择颜色深浅或者固定线条大小。如下图所示:

还可通过单击表格中的关键词,查看该关键词与其余分析词之间的共词次数情况,比如选中‘建设’这个关键词后,其出来结果如下,明显地可以看到,建设与‘建设部’、‘城乡’和‘住房’这三个词之间的关系较为紧密。

五、LDA主题分析

LDA主题分析是一种提取出文本数据核心主题的模型,其可将整份数据文档的信息提取成几个主题,并且标题出主题与关键词之间的权重情况,用于识别主题的具体实际意义,除此之外,LDA主题分析涉及到可视化展示和图形交互等。

SPSSAU中呈现LDA主题分析包括如下内容或功能:

SPSSAU输出LDA主题分析结果如下:

六、新词发现&我的词库

1、新词发现

文本分析时,有些词是无法被词典识别到,比如‘元宇宙’这样的新词,以前的词典并没有它。因而可结合新词发现算法提供一些建议。
新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵的意义为衡量某词与其它词组合一起的容易度;互信息的意义为衡量文本组合的紧密程度。

2、我的词库

文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可。SPSSAU操作上为点击‘我的词库’,然后选择即可,如下图:


以上为本期SPSSAU文本分析模块的相关内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/363225.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sheng的学习笔记-AI-高斯混合模型(GMM)

AI目录:sheng的学习笔记-AI目录-CSDN博客 需要学习前置知识: 聚类,可参考 sheng的学习笔记-AI-聚类(Clustering)-CSDN博客 EM算法,可参考 sheng的学习笔记-AI-EM算法-CSDN博客 贝叶斯,可参考 sheng的学习笔记-AI-…

关于使用绿联 USB-A转RJ45 2.5G网卡提速的解决问题

问题 网络下载速率低 网线是七类网线,外接的USB网卡驱动 我的自带网卡是 I219v 在嵌入了2.5G网络后一直无法到达1.5G以上。 平均测速300~500M 解决方案 更新了USB的网卡驱动 禁用了 I219-V的驱动。测速即可 USB驱动下载地址 https://download.csdn.net/downlo…

分销裂变实战:PLG模式如何助力企业突破增长瓶颈

在竞争激烈的商业环境中,企业如何快速、有效地实现增长,一直是业界关注的焦点。近年来,分销裂变作为一种新兴的商业模式,凭借其独特的优势,逐渐受到企业的青睐。而产品驱动增长(PLG)模式更是为分…

JAVA:Word2Vec的使用

1、简介 Word2Vec是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。 Wo…

Maven deploy上传远程私服失败

Failed to execute goal org.apache.maven.plugins:maven-deploy-plugin:2.8.2:deploy (default-deploy) on project 你的项目: Cannot deploy artifacts when Maven is in offline mode 解决方案&#xff1a; 1.IDEA把这个钩子去掉 2. settings.xml里把 <offline>标…

聊聊啥项目适合做自动化测试

作为测试从业者&#xff0c;你是否遇到过这样的场景&#xff0c;某天公司大Boss找你谈话。 老板&#xff1a;小李&#xff0c;最近工作辛苦了 小李&#xff1a;常感谢您的认可&#xff0c;这不仅是对我个人的鼓励&#xff0c;更是对我们整个团队努力的认可。我们的成果离不开每…

填完高考志愿后,每天必须要做的三件事!

填完志愿后是等录取通知书吗&#xff1f;错&#xff0c;大错特错&#xff0c;今天老师特别提醒大家&#xff0c;每天要做的3件事非常重要&#xff0c;一定要点赞收藏起来。 第一&#xff0c;每天早上9点登录你们省教育考试院的官网&#xff0c;凭个人的账号和密码查看招生考试…

PTA—C语言期末复习(选择题)

1. 按照标识符的要求&#xff0c;&#xff08;A&#xff09;不能组成标识符。 A.连接符 B.下划线 C.大小写字母 D.数字字符 在大多数编程语言中&#xff0c;标识符通常由字母&#xff08;包括大写和小写&#xff09;、数字和下划线组成&#xff0c;但不能以数字开头&#xff0c…

[数据集][目标检测]棉花叶子害虫检测数据集VOC+YOLO格式595张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;595 标注数量(xml文件个数)&#xff1a;595 标注数量(txt文件个数)&#xff1a;595 标注类别…

预制聚氨酯保温管:高效节能管道保温

在现代能源输送领域&#xff0c;预制聚氨酯保温管正凭借其出色的性能&#xff0c;成为保障能源高效传输的关键角色。 预制聚氨酯保温管&#xff0c;顾名思义&#xff0c;其核心在于聚氨酯保温层。这一独特的设计赋予了它卓越的保温性能。聚氨酯材料具有极低的导热系数&#xff…

2024上海MWC 参展预告 | 未来先行,解锁数字化新纪元!

一、展会介绍——2024世界移动通信大会 2024年世界移动通信大会上海(MWC上海)将于6月26日至28日在上海新国际博览中心举行。 本届大会以“未来先行(Future First)”为主题聚焦“超越5G”、“数智制“人工智能经济’造”三大热点话题。届时将在包括超级品牌馆(Super Hall)在内…

Charles网络抓包工具安装和web抓包(一)

目录 概述 抓包工具对比 安装 下载 web抓包配置 按键说明 前言-与正文无关 ​ 生活远不止眼前的苦劳与奔波&#xff0c;它还充满了无数值得我们去体验和珍惜的美好事物。在这个快节奏的世界中&#xff0c;我们往往容易陷入工作的漩涡&#xff0c;忘记了停下脚步&#…

JS(JavaScript)事件处理(事件绑定)趣味案例

天行健&#xff0c;君子以自强不息&#xff1b;地势坤&#xff0c;君子以厚德载物。 每个人都有惰性&#xff0c;但不断学习是好好生活的根本&#xff0c;共勉&#xff01; 文章均为学习整理笔记&#xff0c;分享记录为主&#xff0c;如有错误请指正&#xff0c;共同学习进步。…

天翼云服务器80、443等特殊端口无法访问原因记录

之前阿里云、腾讯云的服务器上&#xff0c;想要用域名访问项目简单配置就好了&#xff0c;这次甲方直接买的翼云的服务器&#xff0c;配置了半天&#xff0c;防火墙端口80、443端口开放了&#xff0c;控制台安全组也添加了&#xff0c;就是不能用域名或IP直接访问&#xff0c;配…

软考《信息系统运行管理员》-1.4 常见的信息系统

1.4 常见的信息系统 常见的信息系统综述 财务系统 财务信息系统会计信息系统 办公自动化系统业务处理系统生产管理系统ERP系统客户关系管理系统人力资源系统 会计信息系统 主要任务是保证记账的正确性。 订单处理子系统库存子系统会计应收/应支系统总账子系统 财务信息系…

Swoole v6 能否让 PHP 再次伟大?

现状 传统的 PHP-FPM 也是多进程模型的的运行方式&#xff0c;但每个进程只能处理完当前请求&#xff0c;才能接收下一个请求。而且对于 PHP 脚本来说&#xff0c;只是接收请求和响应请求&#xff0c;并不参与网络通信。对数据库资源的操作&#xff0c;也是一次请求一次有效&am…

机器人控制系列教程之URDF文件语法介绍

前两期推文&#xff1a;机器人控制系列教程之动力学建模(1)、机器人控制系列教程之动力学建模(2)&#xff0c;我们主要从数学的角度介绍了机器人的动力学建模的方式&#xff0c;随着机器人技术的不断发展&#xff0c;机器人建模成为了机器人系统设计中的一项关键任务。URDF&…

如何使用飞书快捷指令无感记账,ios版

总结 很多人无法长期坚持记账&#xff0c;主要是每次消费需要打开手机软件&#xff0c;一系列繁琐的操作&#xff0c;导致过程中可能就忘了。 今天给大家带来飞书自动记账。 演示视频 点击查看&#xff1a;https://www.douyin.com/video/7312857946382241063 安装 下载快捷…

C++编译时引入json/nlohmann文件报错

报错信息: In file included from /home/chenlang/catkin_ws/src/leanrning_communication/src/mysql/../utils/data.h:14:0,from /home/chenlang/catkin_ws/src/leanrning_communication/src/mysql/MyRobotDb.h:32,from /home/chenlang/catkin_ws/src/leanrning_communicatio…

从一到无穷大 #29 ByteGraph的计算,内存,存储三级分离方案是否可以通用化为多模数据库

本作品采用知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议进行许可。 本作品 (李兆龙 博文, 由 李兆龙 创作)&#xff0c;由 李兆龙 确认&#xff0c;转载请注明版权。 文章目录 引言ByteGraph现有架构阿里云Lindorm腾讯YottaDB多模型化修改点ByteGraph论文中的优化…