讲讲情感分析

最近闲来无事,和朋友一起报名参加了美赛春季赛,在其中我使用了情感分析模型,下面就给大家介绍一下。

情感分析模型是什么?

Introduction

情感分析(sentiment analysis)表面上是指利用计算机技术对文本、图像、音频、视频甚至跨模态的数据进行情绪挖掘与分析。但从广义上讲,情感分析还包括对观点、态度、倾向的分析等。情感分析主要涉及两个对象,即评价的对象(包括商品、服务、组织、个体、话题、问题、事件等)和对该对象的态度、情感等。情感分析在社会的舆情管理,商业决策,精准营销等领域有着广泛的应用。在股市预测、选举预测等场景中,情感分析有着举足轻重的作用。情感分析的诞生和发展主要源于社交媒体和网络,如论坛、博客、微博等。至2000年起情感分析便成为自然语言处理中活跃的领域之一。然而现实生活中,社交网络的情感分析仍存在较大的困难(主要原因之一为社交网络的数据存在大量无用的“垃圾”信息,这也是自然语言处理中大部分工作(如机器翻译等)应用于实际生活场景中很难取得较好效果的原因)。

情感分析的研究方法

情感分析的研究方法主要包括有监督和无监督两种方法。早期的有监督学习是指SVM、最大熵、朴素贝叶斯等这类浅层模型,而无监督学习则为基于词典、语义分析等方法。深度学习的出现使得其在许多分类、回归任务中均取得了最好的结果。近年来应用deep learning进行情感分析也成为了研究的热点。

情感分析的三个层面

情感分析主要分为三个层面,分别为:Document level、Sentence level和aspect level。其中Document level是将整个文档作为分析单元并假设该文档讨论的对象为单一实体且情感、观点都是鲜明、清晰的,即neural, positive or negative 。Sentence level则是以每个句子作为单独的分析对象,由于句子与句子间可能存在某些关联,因此我们不能将其认为是观点明确的。而对于aspect level其分类粒度更细,即我们需要抽取出targets不同层面相互独立的评价,并进行总结综合得到最后的情感。其将涉及ascept extraction, entity extraction以及aspect sentiment classification。例如,对于Deep Learning虽然结果可解释性差,但对于图像识别任务是非常有效的。其中Deep Learning即为entity,extraction identity则为“结果”和“图像识别”,对于“结果”为其情感为negative,“图像识别”为positive。

对于文档级别的情感分析其主要是一个二分类问题(positive or negative),我们当然也可将其转化为回归问题即对于文档的情感给出打分。期初对于该问题比较传统的解决方法是基于文档词袋模型,如计算word frequence或TF-IDF score。该方法带来的最直接的问题便是矩阵稀疏,而且该方法忽略了句子中词语的先后顺序。因此后来便引入了n-gram模型(n-gram模型通过对语料库中的词汇进行简单统计得到序列出现的概率,在过去的几十年中n-gram模型是NLP中的核心模块,最长使用的包括2元文法和3元文法等),改模型可以同时考虑多个词,一定程度上缓解了短文本的词语间的顺序问题,然而对于未登录词我们仍需进行平滑处理,而且该方法并没用考虑任何的语义信息。在此之后03年Benjio提出了词向量,通过将文章表示为稠密的向量而在神经网络中广泛使用(但是word embedding并不能解决一词多义问题,直到ELMO的出现才给出了一个优雅的解决方案)。

对于句子级别的情感分析,与文档类似我们也需要将其变化为句向量然后进行分类。所不同的是,由于句子长度较短因此我们可以结合句法依存树等进行处理,此外对于社交媒体文本数据,如Tweets,我们还可以对social relationships等信息进行考虑。在早期的研究中,结合句法树分析的模型占主导地位,后来神经网络成为主流。

对于aspect级别的情感分析,其有别于文档和句子,我们即需要考虑target的情感同时还要分析aspect的情感,而不同的上下文所包含的情感均会影响最终结果,因此在建模时必须同时考虑目标对象以及上下文间的情感关系,这也增加了任务的困难。在神经网络中我们一般将aspect level sentiment classfication分解为三个子任务:第一,上下文语境词的表示;第二,target的表示,可通过embedding解决;第三,识特定目标情感语境词的识别。

 

下面就给大家介绍一下我的模型。

数据展示

 这是其中的部分数据。

我的代码:

import pandas as pd
import numpy as np
import re
from textblob import TextBlob
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer# nltk.download('stopwords')
# 读取数据
data = pd.read_excel('C:/Users/HP/Desktop/PRO/User evaluation.xlsx')# 预处理文本数据
def preprocess_text(text):text = re.sub('[^a-zA-Z]', ' ', text)  # 去除特殊字符和数字text = text.lower()  # 将文本转换为小写text = text.split()  # 将文本拆分为单词text = [word for word in text if not word in set(stopwords.words('english'))]  # 移除停用词stemmer = PorterStemmer()text = [stemmer.stem(word) for word in text]  # 执行词干提取text = ' '.join(text)  # 将单词重新组合为文本return textdata['Processed_Text'] = data['Text'].apply(preprocess_text)# 执行情感分析
def get_sentiment(text):analysis = TextBlob(text)return analysis.sentiment.polaritydata['Sentiment_Score'] = data['Processed_Text'].apply(get_sentiment)# 计算整个数据集的平均情感得分
average_sentiment_score = np.mean(data['Sentiment_Score'])
print(f'Average Sentiment Score: {average_sentiment_score}')# 检查不同来源的情感得分分布
sentiment_by_source = data.groupby('Source')['Sentiment_Score'].mean()
print(sentiment_by_source)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20722.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

情感分析的新方法

转载自:http://datartisan.com/article/detail/48.html 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一些情感得分指标来…

情感分析

由 Editor 于 2015 年 10 月 08 日 发布在 数据科学 栏目 情感分析的新方法 1 评论 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中。通过这种方式,情感分析可以被视为利用一…

python实现情感分析

一、python实现情感分析 自然语言处理中一个很重要的研究方向是语义的情感分析(SentimentAnalysis),情感分析是指通过对给定文本的词性分析,判断该文本是消极的还是积极的过程。当然,在某些特定场景中,也会加入“中性”这个选项。…

中文情感分析

情感分析在NLP领域中是应用很广泛的技术,一般用深度学习来解决这一类的问题。其实我的理解就是情感分析就是一个分类问题。这里我爬取了京东小米9的用户评论,正面和负面的评价各1000条,爬虫和整体的代码我放在了 GitHub 。然后我把预训练的词…

基于情感词典进行情感态度分析

情感分析是指挖掘文本表达的观点,识别主体对某客体的评价是褒还是贬,褒贬根据进态度行倾向性研究。文本情感分析可以分为基于机器学习的情感分类方法和基于语义理解的情感分析。基于机器学习进行语义分析的话需要大量的训练集,同时需要人工对…

重新梳理一下我对ChatGPT的认识

不得不承认,信息差是广泛存在的,太多地方都存在信息不对称的情况。在我们研究ChatGPT怎么用,能帮我们做什么事儿的时候,有的人已经在用ChatGPT做项目赚钱了,有的人却还不知道ChatGPT怎么注册,还在四处搜索注…

【失业即将到来?】AI时代会带来失业潮吗?

文章目录 前言一、全面拥抱AIGC二、AI正在取代这类行业总结 前言 兄弟姐妹们啊,AI时代,说抛弃就抛弃,真的要失业了。 一、全面拥抱AIGC 蓝色光标全面暂停外包? 一份文件截图显示,中国知名4A广告公司,蓝色…

一键生成元宇宙 AI又杀疯了

人类十几年的进步水平,AI用几个月就能轻易实现。在展示了超强的文本对话能力和一键生图功能后,AI大模型不打算停下,开始挑战搭建3D空间这一更高难度的动作。 这次,Facebook母公司Meta想当一把主导者。几天前,它的首席…

MiX跨学科知识的一封介绍信,实现群体智能的开源社区Mixlab无界社区

如果有一天,所有在井底的青蛙因为某些缘故被迫送上了地面,这些青蛙有什么选择?背井离乡还是跳回井里?这时候系统说如果你选择了前者,系统会送一个ChatGPT给你,它能告诉你这个世界是什么样的,但是…

最容易和最难被GPT所代替的TOP25职业!程序员居首?

上一篇:腾讯,裁员7000人! OpenAI 研究人员曾发文称「约 80% 美国人的工作将被 AI 影响」。 文章的结论是,至少80%的美国劳动力会受到影响,他们的工作的10%会被GPT所替代。其中甚至有19%的美国劳动力的50%工作会被替代。…

巴比特 | 元宇宙每日必读:美国爆发“数据起义”,好莱坞、文学界、新闻界等集体反抗AI,人工智能公司们准备如何应对?...

摘要:据澎湃新闻报道,美国正在爆发一场“数据起义”,好莱坞、艺术家、作家、社交媒体公司和新闻机构都是反抗者。一切的矛头都指向ChatGPT和Stable Diffusion等生成式人工智能工具,它们被指在未经许可或提供补偿的前提下&#xff…

“我裁了 90% 的技术支持团队,都外包给了 AI”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 自 ChatGPT 爆火后,但凡 AI 领域有任何最新进展,人们总会习惯性调侃一句:“人类距离被 AI 取代已经不远了。”说者或许无心,但现在看来,“A…

元宇宙倒在日落黄昏处

来源:青投创新 编辑:Tian "XR赛道整体投入巨大,但回报周期过长是裁员乃至XR赛道不再被资本市场看好的主要原因。 十天前,字节跳动宣布旗下VR厂商PICO将进行人员优化,比例在20%上下,按照整个团队2000人…

决策树分类算法

#CSDN AI写作助手创作测评 目录 ID3算法 1.算法原理 2.代码实现 3.ID3算法的优缺点分析 C4.5算法 1.原理 2.优缺点 心得感受 决策树表示方法是应用最广泛的逻辑方法之一,它从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。在决策树的内部…

selenium学习(二)

第八课–元素定位八种方式 要想操作Web界面上的元素,首先要定位到该元素,Selenium提供了定位元素的API,这些方法都被定义在WebDriver类中,浙西额方法都是以find开头。 方法名称描述可能带来的问题find_element_by_id通过id定位元…

免费ChatGDT插件《 WeTab 新标签页》

1、打开Microsoft Edge,选择右上角的三个点点,选择扩展 2、自动跳出这个小框框,选择管理扩展 3、往下拉、拉到最下边,找到如下图,并点击进去 4、进去之后再左侧搜索框中输入:WeTab 新标签 我这里是以及下载…

基于TF-IDF+Tensorflow+PyQt+孪生神经网络的智能聊天机器人(深度学习)含全部Python工程源码及模型+训练数据集

目录 前言总体设计系统整体结构图系统流程图孪生神经网络结构图 运行环境Python 环境TensorFlow 环境 模块实现1. 数据预处理2. 创建模型并编译3. 模型训练及保存4. 模型应用 系统测试1. 训练准确率2. 测试效果3. 模型生成 工程源代码下载其它资料下载 前言 本项目利用TF-IDF&…

喜羊羊贴吧顶帖软件实战教学

喜羊羊贴吧顶帖软件实战教学#贴吧顶帖#贴吧推广 大家好,欢迎来到百收网SEO这期视频,给大家更新一下百度贴最新的一个顶帖视频教程。首先我们今天用的顶帖软件是我们的喜羊羊173 的一个版本,软件的话在我们的群文件去下载,就是我们…

贴吧发布软件<神奇的>使用教程实战教学

贴吧发布软件<神奇的>使用教程实战教学.百度贴吧全自动发帖软件#贴吧发帖软件 各位同学大家好&#xff0c;欢迎回到百收SEO网络&#xff0c;这节课是我们百度贴软件自动发帖的一个实战教学的一个公开课&#xff0c;发帖软件还是我们用的一个喜羊羊的工具箱&#xff0c;然…

讯飞星火 VS 文心一言:谁是中文大语言模型的TOP1?

在百度发布文心一言一个多月后,科大讯飞也发布了自己的大模型“讯飞星火大模型”。本篇博客就测评一下这两个在中文圈最受好评的大语言模型,顺便辅以ChatGPT为参考。大家一起来看看到底谁是中文大语言模型的TOP1? 目录 体验网址 1、旅游攻略 2、数理逻辑题 3、故事创作…