在信息爆炸的时代,文本数据无处不在,如何从这些海量的文字中提炼出有价值的信息呢?答案就是——文本分析。文本分析,简单来说,就是对文本数据进行深度的研究和分析。它能够从看似普通的文字中,提取出主题、情感等信息,为后续的决策和应用提供有力支持。SPSSAU的文本分析模块可以一站式得到全部的文本分析结果。
一、文本分析软件工具
大学生必备的统计分析工具——SPSSAU在线数据分析软件,可以进行词云分析、文本情感分析、文本聚类分析、社会网络关系图绘制、LDA主题分析、新词发现、管理我的词库等文本分析。
1、如何进入文本分析?
1、SPSSAU搜索框进入
在SPSSAU主系统左上角处进行搜索,比如搜索‘文本’二字时,下拉中会提示文本分析模块,当然搜索其它的潜在关键词,比如情感分析、LDA、文本聚类等均可。
2、SPSSAU界面仪表盘进入
通过SPSSAU主系统左侧仪表盘点击‘文本分析模块’进入。
2、如何上传文本数据?
进入SPSSAU文本分析模块之后,首先需要上传文本数据。上传数据涉及以下内容:
- 支持直接粘贴文本进行上传数据
- 支持上传txt或excel格式数据
- 上传文件最高限制为5M
用户可‘点击上传’自己的文本数据,在弹出对话框中,可实现直接粘贴文本进行上传或者上传txt/excel/csv文件等。如下图所示:
- 数据格式说明
如果是通过excel格式(包括csv/xls/xlsx格式)时,只需要1列数据,该列数据中包括文本数据,将文本全部放置于A列中,A列不需要有标题信息。每行(即每个单元格)存在1个分析文本。如果是txt文档或者粘贴文本进行上传,那么系统会自动过滤掉空行数据,并且以回车键作为每行(即每个分析文本)标志。类似如下图所示:
3、如何进行分析?
上传文本数据后,接着则需要对该数据(项目)进行分析。点击‘开始分析’按钮,项目则开始进行分析。如果完成分析后,‘开始分析’按钮会展示为‘进入项目’,也会展示‘重新分析’按钮,此时点击‘进入项目’即可查看对应的文本分析分析结果,比如词云分析情况等。类似如下图所示:
【提示】:当前SPSSAU限制周会员及以上用户使用,仅购买1天的会员或者非会员无法使用文本分析模块功能,也无法上传文本数据。如果是购买SPSSAU权益号,那么其分配出来的账号或者会员均享受周会员权益,即可使用文本分析模块功能。
- 文本分析结果
SPSSAU文本分析结果包括词云分析、文本情感分析、文本聚类分析、社会网络关系分析、LDA主题分析、新词发现和我的词库等。接下来分别进行简单介绍。
二、词云分析
文本分析模块中,最重要和最基础的为展示分词结果,通常是使用词云进行展示。在‘词云分析等’中,SPSSAU提供四种功能,分别是词云分析、自定义词云、词定位和tf-idf。
1、词云分析
直观展示文本数据的关键词信息,默认是展示前1000个高频关键词、词频、以及出现行数。词云图默认展示前100个高频词,用户可自主设置该数字,也可修改词云风格和下载该词云图。
2、自定义词云
自定义词云提供一种自由和灵活的词云绘图方式,研究者可将整理好的信息,包括词和其词频,直接粘贴(或者自主编辑)在表格中,然后右侧自动呈现出词云效果,并且可对词云进行下载,词云风格设置等操作。
3、词定位
词定位可用于展示具体某个关键词在那些地方有过出现,比如本案例中‘城乡建设’这个关键词,研究者希望了解该关键词的具体出处信息等,可直接点击该词,然后查看具体信息。也可直接搜索想要查看的关键词,如下图所示:
4、tf-idf
tf-idf是个重要的指标,其反映某关键词在整份数据中的重要性程度,当tf-idf越高时,其重要性越高。其与词频的意义不尽相同,词频是指出现次数,而tf-idf更加关注于关键词的重要性程度。tf-idf指标及其对应词云图输出结果如下:
二、文本情感分析
SPSSAU共提供两种方式的情感分析,分别是按词情感分析和按行情感分析。
1、按词情感分析
按词情感分析是指针对提取的关键词进行情感分析,并且进行可视化展示。
情感分析使用情感词典进行情感得分计算,并且经过SPSSAU数据压缩化,将情感得分压缩在-1~1之间。关于情感方向的判断标准具体规则如下表:
SPSSAU输出结果如下:
如果有自定义情感词的需求,可点击‘自定义情感词’,也或者使用点击‘我的词库’-》情感词进行添加或者删除等。
2、按行情感分析
按行情感分析是指针对分析的原始数据以‘行’为单位进行情感分析,并且可下载具体的情感得分值信息等。SPSSAU输出结果如下:
三、文本聚类分析
SPSSAU共提供两种文本聚类方式,分别是按词聚类和按行聚类。
1、按词聚类分析
按词聚类分析是指将需要分析的关键词进行聚类分析,并且进行可视化展示,即针对关键词进行聚类,此处关键词可以自由选择。
默认情况下,系统会将词频靠前的20个关键词提取,并且得到其词向量值,并且其于词向量值进行聚类分析(具体为kmeans聚类),接着进行MDS分析,最终渲染出各个关键词的坐标定位信息,可视化展示词之间的聚类信息。
SPSSAU输出结果如下,图中不同的颜色代表不同的类别,其意味着各个关键词之间的类别区分:
2、按行聚类分析
不同于按词聚类分析,按行聚类分析是指以‘行’为单位,针对每行数据进行聚类分析(具体为kmeans聚类),并且计算出各‘行’数据的聚类类别,也可直接进行下载聚类类别信息。SPSSAU分析结果如下图所示:
四、社会网络关系图
社会网络关系图展示关键词之间的关系情况,此处的关系是指‘共词矩阵’,即两个关键词同时出现的频数情况。接下来将分别介绍‘共词矩阵’和‘社会网络关系图’。
1、共词矩阵
下图中共10个关键词,第1行和第1列为关键词名称且完全对应。具体数据上,右下三角斜对角线为该词的词频。其它数字为‘共现’次数(每行‘共现’次数之和):
2、社会网络关系图
社会网络关系图将共词矩阵信息进行展示,包括是否有共词关系(共词次数>0则有共词关系,等于0则说明没有同时出现过),共词次数情况等。默认情况下,系统会选中排名前20的关键词进行共词矩阵构建和社会网络关系图呈现,用户也可自由“选择分析词”。
在社会网络关系图时,可使用线条粗细展示共词次数,越粗则表示共词次数越高,当然也可选择颜色深浅或者固定线条大小。如下图所示:
还可通过单击表格中的关键词,查看该关键词与其余分析词之间的共词次数情况,比如选中‘建设’这个关键词后,其出来结果如下,明显地可以看到,建设与‘建设部’、‘城乡’和‘住房’这三个词之间的关系较为紧密。
五、LDA主题分析
LDA主题分析是一种提取出文本数据核心主题的模型,其可将整份数据文档的信息提取成几个主题,并且标题出主题与关键词之间的权重情况,用于识别主题的具体实际意义,除此之外,LDA主题分析涉及到可视化展示和图形交互等。
SPSSAU中呈现LDA主题分析包括如下内容或功能:
SPSSAU输出LDA主题分析结果如下:
六、新词发现&我的词库
1、新词发现
文本分析时,有些词是无法被词典识别到,比如‘元宇宙’这样的新词,以前的词典并没有它。因而可结合新词发现算法提供一些建议。
新词发现时涉及到两个关键指标,分别是:信息熵和互信息。信息熵的意义为衡量某词与其它词组合一起的容易度;互信息的意义为衡量文本组合的紧密程度。
2、我的词库
文本分析时,可能涉及到一些新词,比如‘内卷’,这个词很可能在词典中并未出现过,此时可将该词纳入到新词词库中,让系统统计词频等信息时也对该词进行统计。当然还有一些停用词,比如‘好了’,这个词没有实际的意义没有统计词频等必要,此时可对该词设置为停用词。除此之外,还可设置情感词,比如:‘元宇宙’可能是个正向词(也可能是负向情感,由研究者决定),那么可自主设置其情感分值。操作上为点击‘我的词库’,然后选择即可。SPSSAU操作上为点击‘我的词库’,然后选择即可,如下图:
以上为本期SPSSAU文本分析模块的相关内容。