微博舆情 之 特定话题情感分析

本文介绍一下在做微博特定话题情感分析中的做法,核心就是判断文本的情感极性,再根据这个极性来进行情感判定。

主要经过了以下几个步骤:

  • 文本预处理
    • 去乱码、去网络词
    • 利用LTP获取分词、句子结构及成分等信息
  • 情感信息提取
    • 在同义词词林里面找单词编码
  • 情感极性判断
    • 在情感基准库里面寻找单词极性
    • 用VSI 进行调整
    • 用VBS分析主题词极性
    • 计算句子极性

下面就按照这三部分分别介绍:

文本预处理

文本预处理中主要用了语言技术平台(Language Technology Platform,LTP),它是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。 LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块。主要包含以下9个模块:
这里写图片描述

  1. 分句
  2. 分词:分词是基于字的序列标注问题,对于输入句子的字序列,模型给句子的每个字标注一个标识词边界的标记。
  3. 词性标注(Part-of-speech, POS):词性标注是给每个词一个词性类别(名词、动词、形容词等)的任务。
  4. 命名实体识别(Named Entity Recognition, NER):是在句子的词序列中定位并识别人名、地名、机构名等实体的任务,对于挖掘文本中的实体进而对其进行分类有很重要的意义。采用O-S-B-I-E标注形式。
  5. 词义消歧
  6. 依存句法分析(Dependency Parsing, DP):通过分析语言单位各成分之间的依存关系揭示句法结构,就是识别句子的“主谓宾”、“定状补”等语法成分。
  7. 语义角色标注(Semantic Role Labeling, SRL):标注句子中某些短语为给定谓词的论元。
  8. 单文档文摘
  9. 文本分类
  10. 共指消解

情感信息提取

在这里,由于对于每个词及其他的同义词都有一个编码,这个编码对应着这组词的极性,因此我们先在同义词林里面找这个词对应的组的编码,再根据这个编码在情感词库里面找极性,从而利用词的同义词来辅助判断极性;如果没有编码的话,就给这个词赋极性值为0。

《同义词词林》按照树状的层次结构把所有收录的词条组织到一起,把词汇分成大、中、小三类, 大类有 12 个,中类有 97 个,小类有1,400 个。每个小类里都有很多的词,这些词有根据词义的远近和相关性分成了若干个词群(段落)。每个段落中的词语有进一步分成了若干个行,同一行的词语要么词义相同(有的词义十分接近),要么词义有很强的相关性。

情感极性判断

情感倾向度是指主体对客体表达正面情感或负面情感时的强弱程度,不同的情感程度往往是通过不同的情感词或情感语气等来体现。例如:“敬爱”与“亲爱”都是表达正面情感,同为褒义词。但是“敬爱”远比“亲爱”在表达情感程度上要强烈。通常在情感倾向分析研究中,为了区分两者的程度差别,采取给每个情感词赋予不同的权值来体现。

目前,情感倾向分析的方法主要分为两类:一种是基于情感词典的方法;一种是基于机器学习的方法,如基于大规模语料库的机器学习。前者需要用到标注好的情感词典,英文的词典有很多,中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典,还有哈工大信息检索研究室开源的《同义词词林》可以用于情感词典的扩充。基于机器学习的方法则需要大量的人工标注的语料作为训练集,通过提取文本特征,构建分类器来实现情感的分类。

在这里,我们用到的是HowNet的情感词库,构建一张情感词表,把编码放在词库里面找,读取相应的极性。

有时,情感描述项会与语句中否定成分结合一起从而形成相反极性的情况,它属于“配价移动指示符(Valence Shifter Indicator, VSI)”。即使VSI不具有极性,他们也能传递对应情感描述项极性总的量值的相反极性。因此,在决定最终极性前,需要用VSI进行极性调整。

对于一条微博来说,我们先发现句子的情感词,通过情感词的倾向和极性,来决定句子的情感,进而决定整个文本的情感。

在依存结构树里面可以发现,如果主干中心词包含有褒贬倾向的词汇时,离中心词越近的修饰结构,对整个句子的情感倾向影响较大,而离其较远的影响较小。因此将依存句法分析中的这种距离定义为依存语法距离,即自顶向上搜索依存树结构,获取具有语义倾向的词汇到主干中心词的距离,相应的有一个影响因子。因此,我们还要利用词语到语句中心词的距离来计算语句的极性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/41441.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于NLP的COVID-19虚假新闻检测

基于NLP的COVID-19虚假新闻检测 摘要 全文约2400字,建议阅读时间7分钟。本文为大家介绍了基于自然语言处理的COVID-19虚假新闻检测方法以及可视化方法,并结合真实的新闻数据集以及完整的代码复现了检测以及可视化的过程。 最近有这样一则新闻&#xf…

让一让,神州泰岳要进化了

2018年11月,“中国版Facebook”人人公司宣布将人人网社交平台业务相关资产出售,至此,在国内大学生中风靡一时的社交平台正式落幕。人人网创始人陈一舟在接受媒体采访时谈到几点经验教训,其中之一,“转型比创业难&#…

chatgpt赋能Python-python人机对话代码

简介 Python是一种常用的编程语言,广泛应用于人机对话代码的设计与开发。人机对话是基于自然语言处理技术的,为了更好地实现人机交互,我们需要编写高效的Python代码来处理文字、图像和语音输入输出。本文将介绍Python在人机对话代码中的应用…

chatgpt赋能python:Python人机对话框架:让人机交互变得简单

Python人机对话框架:让人机交互变得简单 人机交互已成为现代社会中不可或缺的一部分,尤其在计算机软件的开发领域,如何实现高效的人机交互对于软件的成功运行至关重要。本文将介绍Python人机对话框架,探讨如何使用该框架实现优秀…

ChatGPT当虚拟助手遇见人工智能|小智AI

ChatGPT丨小智ai丨chatgpt丨人工智能丨OpenAI丨聊天机器人丨AI语音助手丨GPT-3.5丨OpenAI ChatGPT|GPT-4|GPT-3|人机对话|ChatGPT应用|小智ai|小智ai|小智ai|小智ai|小智AI|chatgpt小智AI ChatGPT 是一个引人注目的技术成果,它将人工智能与虚拟助手相结合&#xff0…

MOSS模型量化版部署过程

文章目录 项目背景配置环境与准备部署推理命令行部署报错1报错2: 使用免费试用的阿里云GPU部署在AutoDL平台上部署 项目背景 2023年4月21日,复旦大学自然语言处理实验室正式开放MOSS模型,是国内首个插件增强的开源对话大语言模型。MOSS 相关…

chatgpt赋能python:Python中的复制粘贴教程

Python中的复制粘贴教程 在Python编程中,复制和粘贴是极其常见的操作。虽然这似乎是很基础的操作,但在实际应用中仍有很多人不知道如何正确地复制和粘贴代码。本文将介绍Python中的复制粘贴教程,提供一些实用的技巧和小窍门,帮助…

部落冲突-家乡-兵种(训练营兵种、暗黑训练营兵种)

1 训练营兵种 1.1 野蛮人 1.1.1 野蛮人 这些无畏的勇士长着引人注目的胡子,他们依靠着壮硕的肌肉在敌人的村庄肆虐。训练一队野蛮人,他们将为您出生入死! 1.1.2 超级野蛮人 生命值更高、力量更强、速度更快,最重要的是秀发更浓密。成为超级…

2020-12-22

新开普电子股份有限公司_任意文件下载 物联网平台 GET /api/device/foreignId//…%255c…%255c…%255c…%255c…%255c…%255c…%255c…%255cwindows/win.ini HTTP/1.1 Accept: text/html,application/xhtmlxml,application/xml;q0.9,/;q0.8 Accept-Encoding: gzip,deflate Hos…

新开普一卡通系统(Ecard-T4.5 1200) 补卡-挂失常见问题汇集

1. 挂失补卡后的bug bug描述:某用户在进行挂失操作时,选择“是否立即补卡”,如果放在读卡器上的卡是一张已发的卡的话,该用户将造成该用户cardno 的卡库不一致。 原因分析:使用的数据库表:rec_card_make , …

蚂蚁金服斥资2.5亿入股A股公司新开普旗下完美数联

雷帝网 乐天 1月8日报道 A股公司新开普日前发布公告,宣布蚂蚁金服旗下子公司上海云鑫及公司控股子公司完美数联签署了《业务合作框架协议》。 截至公告日,新开普持有完美数联85.7143%股权。上海云鑫拟出资2.5亿元对完美数联增资。 交割全部完成后&#x…

TensorFlow第二届开发者峰会

天体物理学家使用 TensorFlow 分析开普勒任务中的大量数据,以发现新的行星; 医学研究人员利用 TensorFlow 机器学习技术来评估一个人心脏病发作和中风的几率; 科学家在非洲用 TensorFlow 检测木薯植物疾病,从而提高产量并帮助更…

一、二线城市 IT 公司大盘点!建议收藏

点击关注公众号,回复“1024”获取2TB学习资源! 一直以来,总有读者来询问,是否可以整理一下一、二线城市的互联网IT企业,这样方便后面的跳槽、找工作有一个参考。 所以,应大家的强烈需求,今天给大…

【产业互联网周报】微软、谷歌再布局边缘云;美团放弃公有云业务;开普云登陆科创板...

关注ITValue,看企业级最新鲜、最具价值报道! 图片来源:unsplash 【产业互联网周报是由钛媒体TMTpost发布的特色产品,将整合本周最重要的企业级服务、云计算、大数据领域的前沿趋势、重磅政策及行研报告。】 产业互联网&#xff08…

php会议签到签退系统,会议签到管理系统,无障碍会议签到系统,一卡通会议签到系统,会议签到系统 - 新开普(NewCapec)...

会议签到系统 会议签到管理系统是对会议信息的一种统计和详细记录,对参加会议人员进行统一的管理,及时、准确地统计与会人员的迟到、早退、未参加等各种会议状态。 会议签到系统主要是在一卡通系统平台下开发的针对学校企业有关会议管理的软件。一卡通会…

云南酒店一卡通信息化建设,昆明宾馆一卡通管理系统,新开普智慧酒店整体解决方案

一、云南新开普酒店一卡通管理系统概述: 云南新开普酒店一卡通系统包括:一卡通系统管理中心、结算中心、制卡中心、监控平台、自助查询、银行圈存平台、掌上服务平台。 昆明酒店一卡通系统通过先进的管理系统,实现对酒店的停车、人员、消费…

开普云JAVA开发_【JAVA】使用Java SPI ServiceLoader进行Java应用插件模块化开发

背景:在进行业务定制时需要考虑不同接口的服务实现,每个局点所要求的接口大体都不一致,要求接口服务能够插件化方式提供; 方案分析: 1)采用OSGI框架进行开发,但是考虑到OSGI的框架太重,需要引入…

开普用的oracle管理工具,Oracle常用管理工具及其入门

Oracle常用管理工具及其入门 (2012-06-11 14:50:14) 标签: it (一)Oracle Universal Installer 1.用于安装、升级或删除软件组建、还用于创建数据库 2.基于Java引擎 3.具有一下特性 自动的相关性解析 可以进行基于Web的安装 跟踪组件和套件安装的清单 可卸载已安装的…

一卡通充值系统c语言,一卡通充值,一卡通充值中心,一卡通充值系统,一卡通充值转账系统 - 新开普(NewCapec)...

一卡通充值转账系统 1. 企业卡充值转账系统的特点 系统提供POS充值、软件充值、银行自助圈存充值、批量转账等充值方式。 所有充值操作,全部采用联网模式在线操作,以确保安全。 充值操作操作权限划分清晰,责任明确,只允许被授权的…

html学生信息处理,宿舍管理系统,学生宿舍管理,学生宿舍管理信息系统,学生宿舍管理系统 - 新开普(NewCapec)...

学生宿舍管理系统 正普数字化校园宿舍管理系统是为学校宿管科老师方便管理学生住宿情况设计的信息管理系统,通过宿舍管理系统可实时掌握学校公寓使用情况、每个公寓楼房间住宿情况、全校学生住宿情况、每个学生住宿详细信息等等。它是基于网络的B/S结构程序&#xf…