Python NLTK 情感分析不正确

在这里插入图片描述

1、问题背景

一位 Reddit 用户使用 Python 的 NLTK 库来训练一个朴素贝叶斯分类器以研究其他句子的情感,但是无论输入什么句子,分类器总是预测为正面。

2、解决方案

经过仔细检查,发现原始代码中的问题在于 wordList 为空。因此,需要将 wordList 赋值为从推文中提取的单词特征。修改后的代码如下:

wordList = getwordfeatures(getwords(tweets))
wordList = [i for i in wordList if not i in stopwords.words('english')]
wordList = [i for i in wordList if not i in customstopwords]

以下是完整的修复代码:

import nltk
import math
import re
import sys
import os
import codecs
reload(sys)
sys.setdefaultencoding('utf-8')from nltk.corpus import stopwords__location__ = os.path.realpath(os.path.join(os.getcwd(), os.path.dirname(__file__)))postweet = __location__ + "/postweet.txt"
negtweet = __location__ + "/negtweet.txt"customstopwords = ['band', 'they', 'them']# Load positive tweets into a list
p = open(postweet, 'r')
postxt = p.readlines()# Load negative tweets into a list
n = open(negtweet, 'r')
negtxt = n.readlines()neglist = []
poslist = []# Create a list of 'negatives' with the exact length of our negative tweet list.
for i in range(0, len(negtxt)):neglist.append('negative')# Likewise for positive.
for i in range(0, len(postxt)):poslist.append('positive')# Creates a list of tuples, with sentiment tagged.
postagged = zip(postxt, poslist)
negtagged = zip(negtxt, neglist)# Combines all of the tagged tweets to one large list.
taggedtweets = postagged + negtaggedtweets = []# Create a list of words in the tweet, within a tuple.
for (word, sentiment) in taggedtweets:word_filter = [i.lower() for i in word.split()]tweets.append((word_filter, sentiment))# Pull out all of the words in a list of tagged tweets, formatted in tuples.
def getwords(tweets):allwords = []for (words, sentiment) in tweets:allwords.extend(words)return allwords# Order a list of tweets by their frequency.
def getwordfeatures(listoftweets):# Print out wordfreq if you want to have a look at the individual counts of words.wordfreq = nltk.FreqDist(listoftweets)words = wordfreq.keys()return words# Calls above functions - gives us list of the words in the tweets, ordered by freq.
print(getwordfeatures(getwords(tweets)))wordList = getwordfeatures(getwords(tweets))
wordList = [i for i in wordList if not i in stopwords.words('english')]
wordList = [i for i in wordList if not i in customstopwords]def feature_extractor(doc):docwords = set(doc)features = {}for i in wordList:features['contains(%s)' % i] = (i in docwords)return features# Creates a training set - classifier learns distribution of true/falses in the input.
training_set = nltk.classify.apply_features(feature_extractor, tweets)
classifier = nltk.NaiveBayesClassifier.train(training_set)print(classifier.show_most_informative_features(n=30))while True:input = raw_input('ads')if input == 'exit':breakelif input == 'informfeatures':print(classifier.show_most_informative_features(n=30))continueelse:input = input.lower()input = input.split()print('\nWe think that the sentiment was ' + classifier.classify(feature_extractor(input)) + ' in that sentence.\n')p.close()
n.close()

用户可以根据需要调整 customstopwords 列表以过滤掉不相关的词语。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/385811.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Cadence23学习笔记(十四)

ARC就是圆弧走线的意思: 仅打开网络的话可以只针对net进行修改走线的属性: 然后现在鼠标左键点那个走线,那个走线就会变为弧形: 添加差分对: 之后,分别点击两条线即可分配差分对: 选完差分对之后…

Redis:管道

1. 面试题 如何优化频繁命令往返造成的性能瓶颈? 问题由来 edis是一种基于客户端-服务端模型以及请求/响应协议的TCP服务。一个请求会遵循以下步骤: 1 客户端向服务端发送命令分四步(发送命令→命令排队→命令执行→返回结果),并监听Socket…

前端框架 element-plus 发布 2.7.8

更新日志 功能 组件 [级联选择器 (cascader)] 添加持久化属性以提升性能 (#17526 by 0song)[日期选择器 (date-picker)] 类型添加月份参数 (#17342 by Panzer-Jack)[级联选择器 (cascader)] 添加标签效果属性 (#17443 by ntnyq)[加载 (loading)] 补充加载属性 (#17174 by zhixi…

vue-快速入门

Vue 前端体系、前后端分离 1、概述 1.1、简介 Vue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架。它基于标准 HTML、CSS 和 JavaScript 构建,并提供了一套声明式的、组件化的编程模型,可以高效地开发用户界面。…

SpringBoot的约车APP-计算机毕业设计源码96773

摘要 本文基于Spring Boot框架设计并实现了一款约车APP,旨在为用户提供便捷的出行服务。通过后端Spring Boot框架和前端交互界面的设计,实现了用户快速叫车、实时定位、路线规划等功能。系统结合了高效的后端处理和直观的用户体验,为用户提供…

分类常用的评价指标-二分类/多分类

二分类常用的性能度量指标 精确率、召回率、F1、TPR、FPR、AUC、PR曲线、ROC曲线、混淆矩阵 「精确率」查准率 PrecisionTP/(TPFP) 「召回率」查全率RecallTP/(TPFN) 「真正例率」即为正例被判断为正例的概率TPRTP/(TPFN) 「假正例率」即为反例被判断为正例的概率FPRFP/(TNFP)…

降Compose十八掌之『鱼跃于渊』| Gesture Handling

公众号「稀有猿诉」 原文链接 降Compose十八掌之『鱼跃于渊』| Gesture Handling UI是用户界面,一个最为基础的功能就是与用户进行交互,要具有可交互性。要想有可交互性就需要处理用户输入事件。手势是最为常见的一种用户输入,今天就来…

SAPUI5基础知识18 - 自定义CSS和主题色

1. 背景 在上一篇博客中,我们通过使用SAPUI5提供的CSS类实现元素间距的调整。在本篇博客中,让我们看一下如何实现自定义的CSS样式。 2. 背景知识 2.1 CSS基础语法 CSS,全称为级联样式表(Cascading Style Sheets)&a…

6.6 使用dashboard商城搜索导入模板

本节重点介绍 : 模板商城中搜索模板导入模板修改模板 大盘模板商城地址 免费的 地址 https://grafana.com/grafana/dashboards 搜索模板技巧 详情 导入dashboard 两种导入模式 url导入id导入json文件导入 导入 node_exporter模板 https://grafana.com/grafana/dashboa…

“葫芦娃”竟上了SCI论文!当童年碰上科研,你还会觉得科研枯燥吗?

本周投稿推荐 SCI • 能源电力类,1.5-2.0(25天来稿即录) • 1区计算机类,3.5-4.0(1个月录用) • CCF推荐,1区-Top(3天初审) EI • 各领域沾边均可(2天录…

[CISCN2019 华东南赛区]Web11

进来先做信息收集,右上角显示当前ip,然后有api的调用地址和请求包的格式以及最重要的是最下面的smarty模版,一看到这个就得想到smarty模版注入 测试了一下两个api都无法访问 直接切到数据包看看能不能通过XFF来修改右上角ip 成功修改&#x…

Flink笔记整理(四)

Flink笔记整理(四) 文章目录 Flink笔记整理(四)六、Flink中的时间和窗口6.1 窗口(Window)窗口的概念窗口的分类窗口API概览窗口分配器窗口函数(Window Functions) 6.2 时间语义&…

Windows电脑如何启动RTSP服务实现本地摄像头数据共享

技术背景 提起Windows共享本地摄像头,好多人想到的是通过ffmepg或vlc串流到服务器,实际上,用轻量级RTSP服务更简单,本文就介绍下,如何用大牛直播SDK的Windows轻量级RTSP服务,采集摄像头,生成本…

React Router-v6.25.1

以下例子是根据vitereactts构建的,使用路由前先安装好这些环境!!!! 1、路由的简单使用 首先要创建一个浏览器路由器并配置我们的第一个路由。这将为我们的 Web 应用启用客户端路由。 该main.jsx文件是入口点。打开它…

什么是大型语言模型 (LLM)

本章探讨下,人工智能如何彻底改变我们理解和与语言互动的方式 大型语言模型 (LLM) 代表了人工智能的突破,它采用具有广泛参数的神经网络技术进行高级语言处理。 本文探讨了 LLM 的演变、架构、应用和挑战,重点关注其在自然语言处理 (NLP) 领…

Unity XR Interaction Toolkit设置或监听手柄按键事件(三)

提示:文章有错误的地方,还望诸位大神不吝指教! 文章目录 前言一、XRI Default Input Actions1.导入官方案例2.设置控制器绑定,如手柄、主/辅助按钮、操纵杆等1.要设置控制器绑定,如左右手 手柄、主/辅助按钮、操纵杆等…

UART编程框架详解

1. UART介绍 UART:通用异步收发传输器(Universal Asynchronous Receiver/Transmitter),简称串口。 调试:移植u-boot、内核时,主要使用串口查看打印信息 外接各种模块 1.1 硬件知识_UART硬件介绍 UART的全称是Unive…

微信小程序教程001:小程序简介

文章目录 学习目标小程序简介1、小程序和普通网页开发的区别2、注册小程序账号3、获取小程序的AppID4、安装开发者工具4.1 了解开发者工具4.2 下载开发工具 5、设置开发者工具外观 学习目标 如何创建小程序项目小程序项目的基本组成结构小程序页面由几部分组成小程序常见的组件…

小模型狂飙!6家巨头争相发布小模型,Andrej Karpathy:大语言模型的尺寸竞争正在倒退...

过去一周,可谓是小模型战场最疯狂的一周,商业巨头改变赛道,向大模型say byebye~。 OpenAI、Apple、Mistral等“百花齐放”,纷纷带着自家性能优越的轻量化小模型入场。 小模型(SLM),是相对于大语言模型(LLM…

sql注入详解【从数据库架构分析】

文章目录 简介数据库的架构sql注入概念正常语句正常回显页面在页面中使用sql语句 跨库查询sql文件读写影响条件复现读写的路径的问题 sql注入请求分类sql注入请求类型sql注入请求方式:sql注入数据请求格式 数据库的增删改查数据库查询数据库添加数据库删除数据库修改…