此文是2021年初在深圳大学文化产业研究院黄老师的指导下,与吴同学合作完成的,且于2021年4月发表于《文化深圳》杂志第一期。
文章目录
- 1 背景
- 2 研究思路
- 3 数据来源
- 4 数据基本情况
- 4.1 粤港澳大湾区的博物馆数据统计
- 4.2 粤港澳大湾区各城市博物馆的平均得分
- 5 词云图分析
- 6 LDA主题聚类分析
- 6.1 数据处理
- 6.2 LDA主题聚类
- 7 文本情感分析
- 7.1 文本情感分析含义
- 7.2 基于BosonNLP情感词典的情感分析方法
- 7.3 基于知网情感词典的情感分析方法
- 7.4 对比分析两种情感分析方法
- 8 总结、建议及展望
- 8.1 总结
- 8.2 建议
- 8.3 展望
- 参考文献
1 背景
《粤港澳大湾区发展规划纲要》确立了建设“人文湾区”的战略目标,而博物馆是社会文明和地区发展的记录者、见证者,是新时代文化创新的激发者和创意源,是人民群众共享发展成就的公共空间。创新博物馆公众服务形式,提升其服务效能,更好地满足访客需求对于大湾区的文化传承与创新至意义重大,而访客参观满意度是评估博物馆服务水平的重要指标。
满意度作为一种理论模型已经被探索和讨论了很长一段时间,并且存在多种工具来操作和测量它[1],但目前主要还是通过调查收集数据。随着数字时代的发展,博物馆的访客越来越关注并且参与到诸如携程网等网络平台中,通过其他访客对博物馆的评价打分了解该博物馆的参访意义和必要性。在线评论是访客第二信任的信息来源,仅次于家人和朋友的建议,评论中的经验和意见会很大程度影响潜在访客的购买决定,从而对一个组织的品牌与传播产生很强的影响。访客分享意见,帮助潜在访客评估展览的质量与价值,虽然博物馆在各种平台中提供展览描述,但平台上过往访客的评价内容被认为更值得信赖,从而引起了大量“潜在”访客的关注。技术的进步从根本上改变了访客如何生产和消费信息,访客现在可以访问不同的信息来源,生成自己的内容分享观点和经验,互联网上的数据量已达到几乎不可能进行人工处理的水平。大数据的使用正在迅速进入文化研究领域[2],大数据的四V特征,即体积(规模)、多样性(不同类型的数据)、速度(高、实时)和准确性(不确定性、有效性),较好地契合了文化服务场所对实时和定制信息需求越来越大的现状,但目前国内学术界对于博物馆的访客评价文本数据分析匮乏。
本文将从访客视角出发,以粤港澳大湾区各城市的博物馆评价文本为研究对象,通过文本挖掘和文本聚类等方法,深入研究博物馆访客最关注的博物馆主题和情感维度,意在提升大湾区博物馆参访体验,助力人文湾区建设。
2 研究思路
由于本文的研究对象是博物馆的访客在线评论,为了能有效利用文本挖掘算法对研究对象进行处理,首先需要分析博物馆访客文本评论的特点。通过阅读大量的评论发现,有很多评论的字数在10到80字左右,评论所涉及的范围较广,比如“门票”“交通”“周边环境”等涉及到参观体验的各个方面,其中也涉及到“开心”“失望”“非常满意”等情感词汇,有利于进行文本聚类分析和情感分析。
但由于单条评价篇幅较短,这种情况下不适合通过把单个评论作为一个文档来进行聚类分析,即采用传统的基于VSM的空间向量模型的文本聚类方法进行主题归类。而本文的研究目的是为了找出隐含在评论中访客最关注的博物馆主题维度以及情感维度。在文本聚类中,为了保证能正常运用文本挖掘方法,本文将爬取的粤港澳大湾区11座城市访客评价文档合并为一个文档来进行研究,初步进行粤港澳大湾区城市博物馆评价数、平均得分的统计以及词云图分析后,利用LDA主题聚类模型对文本评论进行分析,从而得到访客对博物馆进行评价时最关注的主题维度;除此之外,为了更深入地挖掘访客评论信息,本文通过对比基于BosonNLP情感词典和基于知网情感词典的情感分析方法,选取精确度高达80%的基于知网情感词典的情感分析方法对11座粤港澳大湾区城市的博物馆评价依次进行情感得分分析,并进一步通过可视化分析应用发掘不同城市访客的情感和满意度情况。
3 数据来源
通过调查发现,携程网的博物馆数据覆盖面较大,并且容易采集。为了使研究结果具有真实和有效性,在数据采集之前,通过对携程网的部分访客评价进行分析,发现评价中褒贬性质所占比例合适,大多数评论内容都是真实有效的。因此,选定携程网上已存在的粤港澳大湾区博物馆访客的评论文本作为数据来源是合理有效的。
通过编写Python爬虫程序,从携程网上采集粤港澳大湾区11座城市的87座博物馆的评论数据进行文本分析,评论数据包括“访客名”“评论时间”“评分”以及“评价内容”,本文主要对访客的“评价内容”进行分析。
图1:爬取携程网上的博物馆评价数据
4 数据基本情况
4.1 粤港澳大湾区的博物馆数据统计
通过携程网选取粤港澳大湾区11座城市的87个博物馆:香港(11个)、澳门(10个)、广州(18个)、佛山(12个)、肇庆(3个)、深圳(8个)、东莞(10个)、惠州(3个)、珠海(3个)、中山(4个)、江门(5个),访客的评论数一共为11943条,各个城市的博物馆数和评价数如表1所示:
表1 粤港澳大湾区各城市博物馆数量和评价数
城市 | 博物馆个数 | 评论数 |
---|---|---|
广州 | 18 | 5285 |
澳门 | 10 | 1325 |
佛山 | 12 | 1268 |
香港 | 11 | 1075 |
东莞 | 10 | 978 |
深圳 | 8 | 585 |
江门 | 5 | 210 |
珠海 | 3 | 184 |
肇庆 | 3 | 182 |
中山 | 4 | 132 |
惠州 | 3 | 83 |
各城市的评论数分布如图2所示,可以直观地发现广州的博物馆数量多且评论数高达5285条;而惠州的博物馆数量最少,评论数为83条,这也从侧面反映出粤港澳大湾区的博物馆数量和访客参观博物馆的活跃度存在差异。
图2:粤港澳大湾区各城市博物馆评价数的饼状图
4.2 粤港澳大湾区各城市博物馆的平均得分
通过对11座粤港澳大湾区城市的博物馆访客评价分数进行平均分计算,发现各城市博物馆的平均得分如表2所示,通过计算得出粤港澳大湾区博物馆的平均得分为4.26,其中东莞、澳门的博物馆平均得分远高于平均分,分值达到4.40以上;而肇庆、中山、佛山、珠海、惠州则低于平均得分,处于4.1-4.2之间,这说明访客对粤港澳大湾区不同城市的博物馆满意度存在较大差异。
表2 粤港澳大湾区城市博物馆的平均得分
城市 | 平均得分 |
---|---|
东莞 | 4.491 |
澳门 | 4.405 |
江门 | 4.386 |
广州 | 4.335 |
香港 | 4.329 |
深圳 | 4.289 |
肇庆 | 4.181 |
中山 | 4.144 |
佛山 | 4.111 |
珠海 | 4.109 |
惠州 | 4.108 |
基于各城市博物馆的平均得分,本文也绘制了直观的柱状图如图3所示,可以明显看到各城市的评价得分差异。
图3:粤港澳大湾区各城市博物馆平均得分
5 词云图分析
本文对粤港澳大湾区博物馆的11943条评论进行词云分析,得到的结果如图4。词云图分析(Word Cloud Analysis)是一种富信息文本可视化技术,通过布局算法用文字大小表示词频,能直观地反映词组重要性差异,展示文本关键摘要信息。近年来,词云分析作为极富表现力的可视化载体,广泛应用于网站导航、社会化标签呈现、Web 文本分析以及各种文本挖掘和可视化场景[3]。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-stbrUxrO-1649832973740)(http://images.ferryxie.cn/2022-04-10-4.png)]
图4:粤港澳大湾区博物馆在线评论词云图
通过词云图分析,可以发现粤港澳大湾区的访客对于“门票”“石雕”“交通方便”“免费”“地铁”“开放时间”“景色”“门票”以及“富丽堂皇”的关注度较高,这些词汇涉及到博物馆的装修装饰、参观条件、开放情况、交通便利性等方面。为进一步探究访客对于粤港澳大湾区博物馆的关注面,需要进行深入的主题聚类分析。
6 LDA主题聚类分析
6.1 数据处理
在进行LDA主体聚类分析前,首先需要对数据进行预处理,将数据进行清洗、文本切词、去停用词和长度判断等处理后,完成将非结构化数据转化为结构化数据的过程,实现文本到数值的转换。
(1)数据清洗和文本切词。将获取的博物馆访客评价数据中的重复数据和无意义超短文本等无意义数据剔除,最终得到关于博物馆的有效访客评论数据共11943条,基于11943条评论数据进行jieba切词,得到初步的分词结果。
(2)去除停用词。在得到jieba分词的结果后,发现文本中包含“广州”“香港”以及标点符号等对主题分类无意义的高频词,将类似的无意义高频词添加到初始停用词表,初始停用词表结合哈工大停用词表、四川大学机器智能实验室停用词库、百度停用词表等常用且权威的停用词表;在初始停用词表进行扩展后,形成最终适用于本文的停用词表,进一步处理分词结果数据。
(3)去除长度小于2的词。因为长度小于2的词大都不具有实际意义,因此需要将这些词从结果中去除。
通过上述步骤可以得到较好的分词结果,为LDA主题聚类分析提供数据支撑,有利于分类效果的提升,从而挖掘粤港澳大湾区博物馆的访客更加关注博物馆的哪些层面,主要流程图如图5所示:
图5:LDA主题聚类分析流程
6.2 LDA主题聚类
LDA主题聚类方法是一种无监督的贝叶斯模式,属于无监督的学习方式,在训练时不需要人工标注的训练集,只需要指定文档集和主题的个数,是一种基于概率统计方法的动态主题识别模型,包含词、主题、文档 3 层结构模型[4]。LDA 模型是目前研究和使用得非常广泛的一种主题识别模型,对长文本具有良好的表达能力[5][6][7][MOU1] 。LDA 主题建模利用词频的共现频率进行词组聚类,将庞大的词向量空间转化为主题空间,通过主题降维得到的主题概率分布具有语义特征,可有效地将主题相近的词与词组聚成一类[8]。 除此之外,LDA 主题模型可以用来识别大规模文档集或语料库中潜藏的主题信息,其效果优于混合主题模型( multinomial mixture)等其他主题划分方法[9]。也有学者发现,LDA主题模型在耗时和准确率上均比其他三种主题模型具有明显的优势[10]。因此基于LDA模型对粤港澳大湾区大规模的文档集——博物馆评论进行主题分类,能够有效地提取访客评论中的主要观点。
基于数据处理得到的分词结果,在进行LDA主题聚类前,通过对分词结果进行词性标注,进行字典转换,生成统计词典。基于词典对每个词进行字典向量化,实现文本非结构化数据向结构化数据转化,从而将访客的评论数据转换成向量形式以进行主题聚类。
除此之外,为了得到主题分类的结果,还需要确定主题的数量。在使用 LDA 主题模型时,有学者在论文中在采用 “作者-会议-主题”模型分析科学文献标题和摘要中的主题时,通过人为定义将主题数设定为5个,取得了较好的分析结果[11]。但是根据人为设定的方法存在主观性,会导致主题分类数目偏离最佳分类数目,因而需要结合“一致性分数”进行判断。
通过LDA主题模型对每一类中的特征词分布概率进行分析,计算不同主题数目下的最大“一致性分数”,当最大“一致性分数”所对应的主题数目即为最佳聚类数。“一致性分数”可以用来评估主题分类的质量,更高的一致性分数表示更好的主题分类可解释性,提供了一种评价的方法来判断给定主题模型的好坏程度。因此为了设定主题的最佳类别数量,本文将主题划分为1-10类,通过编程判断每一个分类数目的“一致性分数”。根据结果显示,当主题数为5时,“一致性分数”最大(0.398),可以从图5清楚地看到主题分类数为5时比其他主题分类的一致性分数更高,因此选定主题数为5进行LDA主题模型的聚类数量输入值,进行主题模型训练,从而得到5个分类主题及其对应的词汇如表3所示,其中根据各个分类的词汇特点,结合专家讨论和分析,将5个分类依次命名为“地理环境”“访客体验”“馆内特色”“历史人文”“价值判断”。
图6:不同主题分类数及一致性分数
研究结果表明,粤港澳大湾区的访客在线评论主题可以分为5类:“地理环境”“访客体验”“馆内特色”“历史人文”“价值判断”,这些分类和“词云图分析”得到的结果大致接近,因此可以检验在最佳主题数的LDA聚类效果较好。为了进一步查看各个分类蕴含的信息,本文对5个主题进行深入分析:
(1)“地理环境”涉及“交通、地址、地铁”等词汇,传达了访客对博物馆地理位置、周边环境和交通条件等方面的关注,这意味着博物馆所处位置的交通设施等便利性是访客十分关注的。
(2)“访客体验”包括“免费、门票、身份证、排队”等词汇,跟访客进入博物馆的体验紧密相关,访客关注进入博物馆是否需要门票、身份证以及博物馆是否免费,并且等待入场排队时间等参访体验也被访客关注。
(3)“馆内特色”包含“特色、风格、华丽、典型、艺术”等词汇,这说明博物馆的馆内特色和陈列备受访客关注,博物馆的特色展示和陈设吸引着访客。
(4)“历史人文”中的“历史、发展、故事、文化”等涉及博物馆的人文底蕴、历史发展和背后建立的故事以及文化也备受访客关注。
(5)“教育意义”包含“小孩、价值、主题、意义、体验”等词汇,通过这些词汇,本文发现博物馆的教育、价值意义对于访客而言也是十分重要的,有些访客侧重于博物馆对儿童青少年的教育、意义等方面,这印证了当下访客越来越重视博物馆对儿童青少年教育的现实诉求。随着科技的进步和时代的发展,博物馆作为一种社会文化机构,逐渐彰显其教育功能,这与本聚类内容——访客关注博物馆的教育意义体验相契合[12][13],某种程度上说明了LDA聚类分析的合理性。
表3: LDA主题聚类命名结果
主题序号 | 主题命名 | 主题词汇 |
---|---|---|
1 | 地理环境 | 地方、交通、地址、地铁、广场、面积、布局 |
2 | 访客体验 | 免费、门票、身份证、闭馆、排队、空间、小时 |
3 | 馆内特色 | 特色、装饰、艺术、雕刻、工艺、风格、陶塑、彩绘、华丽、宗族、宗祠、象牙、工艺品、典型、八景 |
4 | 历史人文 | 历史、发展、文化、历程、故事、传统 |
5 | 教育意义 | 孩子、小朋、小孩、人文、价值、主题、意义、体验、内容、活动 |
7 文本情感分析
7.1 文本情感分析含义
不同于对博物馆访客整体打分的分析,基于文本的情感分析更能挖掘访客对博物馆的主观情绪与评价。文本情感分析又称倾向性分析、意见挖掘、情感分类等,简言之,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[14]。基于情感知识构建情感词典并将其作为工具是判断主观性文本情感极性的主要方法[15],其基本原理是对文本进行情感词匹配,加权计算并汇总情感词评分,从而判断文本的情感极性。一条博物馆在线评论是10-80字的短文本,如何识别其情感倾向,情感词典尤为重要。
目前,文本情感分析研究领域还没有一部完整且通用的情感词典,但已积累了不少情感词典资源。主要的中文词典有《知网词典》(HowNet)、《BosonNLP情感词典》(BosonNLP_sentiment_score)、《台湾大学中文情感词典》(NTUSD)、张伟等[16] 编著的《学生褒贬义词典》、史继林等[17]编著的《褒义词词典》等。本文主要使用知网词典和Boson情感词典来进行粤港澳大湾区博物馆在线评论情感分析,以便更深入地挖掘在线评论信息。
7.2 基于BosonNLP情感词典的情感分析方法
BosonNLP情感词典是从微博、新闻、论坛等数据来源的上百万篇情感标注数据当中自动构建的情感极性词典。该词典囊括了很多网络用语及非正式简称,对非规范文本也有较高的覆盖率[18],适合应用于社交媒体文本情感分析,因此使用此词典对粤港澳大湾区博物馆在线评论进行情感分析。
首先,需要对文本进行分句、分词。其次,将分词好的列表数据对应BosonNLP词典进行逐个匹配,并记录匹配到的情感词分值。最后,计算分值总和,如果分值大于0,表示情感倾向为积极的;如果等于0,则表示情感倾向为中性的;如果小于0,则表示情感倾向为消极的。算法框架如图7所示:
图7;基于BosonNLP情感词典的情感分析算法框架
7.3 基于知网情感词典的情感分析方法
知网(英文名HowNet,并非中国知网CNKI,作者注)是中国科学院董振东教授花了逾十年时间创建的一个知识系统,其在2007年发布了《情感分析用词语集》,该词典最大的特点在于作者已经根据词语情感倾向将其分为了 6 类,分别为“正面评价”词语、“负面评价”词语、“正面情感”词语、“负面情感”词语、“主张词语”以及“程度级别”词语。博物馆在线评论文本信息表达多元化,故本文将评价和情感词语整合作为情感词典使用。
基于知网情感词典的情感分析原理分为以下几步(算法框架图如图8所示):
(1)对文本进行分句、分词,并将得到的文本语料与哈工大停用词表(文本分析研究领域的主要停用词表)对比,去除停用词;
(2)接着对每一句在线评论进行情感分析,首先判断评论中的情感词数目,如含有积极词,则总积极词数目加1;如含有消极词,则消极词数目加1。
(3)统计情感词过程中还需判断该词前面是否存在程度副词,此处使用“程度级别”词语表,按照等级可分为most(最高)、very(很、非常)、more(更、更多)、ish(稍、一点点)、insufficiently(欠、不)、inverse(少,过少)六个情感程度词典。如果评论文本存在程度副词,则需根据等级赋予不同的权重,乘以情感词数。
(4)因为标点“!”与“?”往往表示情感的加强,所以如果文本句尾存在“?”或“!”的符号,则情感词数目增加一定值。
(5)接着计算整段文本的情感值(积极词值-消极词值),得到该条文本评论的情感倾向。
图8:基于知网情感词典的情感分析算法框架
7.4 对比分析两种情感分析方法
为了对比两种情感分析方法,本文随机抽取300条粤港澳大湾区博物馆在线评论文本作为样本,进行人工情感倾向标注,再分别使用基于BosonNLP情感词典和基于知网情感词典的情感分析方法进行情感分析,得到如下表4的两种方法情感倾向结果对比表(部分)。接着通过公式
精确率 = 总样本数 正确判断的样本数
进行精确率判断,发现基于BosonNLP情感词典的情感分析方法准确率为72.5%,基于知网情感词典的情感分析方法准确率高达80%,说明基于知网情感词典的情感分析方法较优,更适合用于博物馆在线评论领域的情感分析。
表4:两种方法情感倾向结果对比表(部分)
接下来使用基于知网情感词典的情感分析方法分别对粤港澳大湾区11座城市的博物馆在线评论进行分析,各城市的情感得分高低排序如表5所示。不同于基于访客对博物馆直接整体打分的分析,从情感得分分析,佛山、深圳、广州三座城市的博物馆得分位居前列,访客情感最积极,中山、惠州的博物馆情感得分位居末位。
表5:各城市博物馆情感得分高低排序表
城市 | 平均得分 |
---|---|
佛山 | 3.94 |
深圳 | 3.08 |
广州 | 2.97 |
澳门 | 2.62 |
肇庆 | 2.5 |
珠海 | 2.47 |
江门 | 2.4 |
东莞 | 2.29 |
香港 | 2.23 |
中山 | 2.11 |
惠州 | 1.98 |
基于各城市博物馆的情感得分,本文也绘制了如图9所示的粤港澳大湾区各城市博物馆情感地图,可以直观地看到各城市的情感得分差异。
图9:粤港澳大湾区各城市博物馆情感地图
8 总结、建议及展望
8.1 总结
基于粤港澳大湾区博物馆访客对博物馆的评价文本信息,本文创新性地对文本评论的隐含价值信息进行深入挖掘。在公共文化服务体系建设越来越完善的背景下,博物馆公共文化服务日益呈现出线上线下相结合的趋势。在互联网时代背景下对粤港澳大湾区博物馆访客评价信息进行挖掘,能够促使博物馆从访客需求出发,加强访客数据采集,及时回应访客诉求,为目标访客群体提供适销对路的公共文化产品。情感分析也能够让大湾区各博物馆的管理人员充分意识到博物馆管理、服务等方面的不足,这些基于文本信息挖掘得到的成果有助于改进博物馆的服务、访客体验和文化传播。
本文首先对比了粤港澳大湾区11座城市代表性博物馆的评价数、评价平均得分,发现不同城市之间的博物馆参访积极度和评价满意度存在较大差异;通过对访客的评价文本数据进行处理,结合“一致性分数”确定最佳LDA主题聚类数为5从而进行主题分类,得到了包括“地理环境”“访客体验”“馆内特色”“历史人文”“教育意义”在内的5类主题,主题分类的效果也被词云图分析和相关文献研究所检验;除此之外,为了更深入地挖掘访客评论信息,本文通过对比基于BosonNLP情感词典和基于知网情感词典的情感分析方法,选取精确度高达80%的基于知网情感词典的情感分析方法对11座粤港澳大湾区城市的博物馆评价依次进行情感得分分析,并进一步通过可视化分析应用发掘不同城市访客的情感和满意度情况。
8.2 建议
由于粤港澳大湾区不同城市的博物馆访客评论数量、评价得分存在较大差异,因此博物馆的相关人员需要进一步了解访客对博物馆的关注维度,得分低的城市博物馆管理人员可以学习借鉴得分高的博物馆;结合词云图分析和LDA主题聚类分析,本文发现:访客对博物馆的“地理环境”“访客体验”“馆内特色”“历史人文”“教育意义等5类主题较为关注,博物馆的地理位置涉及到访客参观博物馆的便利性和动力,如果博物馆的环境较差、交通不便或者位置偏僻,很有可能导致访客参观博物馆的动力不足,因此博物馆在选址时需要考虑地理位置和周边环境;访客也对博物馆是否收费、是否需要身份证以及开放时间比较关注,这意味着博物馆需要明确说明这些访客入馆的基本条件信息,避免因为信息不对称导致访客实地体验感较差;根据聚类结果,博物馆内的特色展品和陈列也能够吸引访客,这说明博物馆可以定期进行策划、举办线上或线下专题特色展览活动,吸引不同兴趣爱好的访客参访,促进粤港澳大湾区的居民和游客深入接触和了解湾区文化;同时,博物馆的历史底蕴和教育意义也备受访客关注,这说明博物馆在策划特色展览时,可以侧重历史文化和艺术教育主题的内容,这有利于激发访客对于博物馆的兴趣,提升其满意度,从而进一步传播粤港澳大湾区文化。
8.3 展望
虽然本文采集到了11943条粤港澳大湾区各城市博物馆的访客评论,在样本量上可观,但数据来源受限于携程网等网站,因此博物馆的访客评价可能具有偏差,并且不同城市的博物馆评价数目采集不均,可能会欠缺全面性,未来可以进一步扩大样本量,使样本特征能更准确地反映总体特征。除此之外,采集数据中还包含访客的评价时间,通过利用文本分析方法将情感得分进行时间序列可视化,未来可以基于时间维度对粤港澳大湾区博物馆的时间变化访客满意度进行深入研究,直观查看文本情感得分异常点出现在什么时间及其情感得分,这也有利于大湾区的博物馆从业人员更加了解不同时段下访客对博物馆的关注主题和情感向度以及满意程度,从而更好地制定博物馆发展战略,提升博物馆的公共服务效能,助力人文湾区建设宏伟目标早日实现。
参考文献
[1] Wang, Y 2017. “More Important Than Ever: Measuring Tourist Satisfaction”. Griffith Institute for Tourism Research Report No. 10.
[2] Fuchs, M., W. Höpken, and M. Lexhagen. 2014. “Big Data analytics for knowledge generation in tourism destinations – A case from Sweden.” Journal of Destination Marketing and Management, 3 (4):198-209.
[3] 李向宇.基于词云分析的近5年核心期刊幼儿体育文献研究现状[J].运动,2014(05):79-81.
[4] Blei D M,Ng A Y,Jordan M I. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research,2003( 3) : 993 - 1022.
[5] 胡吉明,陈果. 基于动态 LDA 主题模型的内容主题挖掘与演 化[J]. 图书情
[6] 祝娜,王效岳,杨京,白如江.基于LDA的科技创新主题语义识别研究[J].图书情报工作,2015,59(14):126-134.
[7] 罗恺,袁晓东.基于LDA主题模型与社会网络的专利技术融合趋势研究——以关节机器人为例[J].情报杂志,2021,40(03):89-97.
[8] 李勇,陈晓婷,刘庆莉.供给侧视角下物流技能人才需求与培养匹配分析[J].职业技术教育,2020,41(02):26-30.
[9] 王博,刘盛博,丁堃,刘则渊.基于LDA主题模型的专利内容分析方法[J].科研管理,2015,36(03):111-117.
[10]刘江华.一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证[J].情报科学,2017,35(02):16-21+26.
[11]Ding Y. Topic-based page rank on author cocitation networks [J]. Journal of the American Society for Information Science and Technology,2011,62( 3) : 449 - 466.
[12]陈晨. 博物馆儿童教育现状研究[D].南京师范大学,2017.
[13]周婧景. 博物馆儿童教育研究[D].复旦大学,2013.
[14]赵妍妍, 秦兵, 刘挺. 文本情感分析综述[J]. 软件学报, 2010, 21(8): 1834-1848.
[15]洪巍, 李敏. 文本情感分析方法研究综述[J]. 计算机工程与科学, 2019, 41(04):180-187.
[16]张伟,刘缙,郭先珍.学生褒贬义词典.北京:中国大百科全书出版社,2004.
[17]史继林,朱英贵.褒义词词典.成都:四川辞书出版社,2005.
[18]玻森数据:http://static.bosonnlp.com/dev/resource
[19]王文珺. 提升基层博物馆公共服务水平的策略研究[J]. 文物鉴定与鉴赏, 2019, 000(009):142.