差评近一半,用 Python 分析胡歌的《猎场》到底值不值得看?

作者 | 布道

11 月 6 日,湖南卫视已经开播被称作年度压轴的大戏“猎场”,迅速占领各大榜单,成为一部高热度的电视剧。但是在豆瓣上却形成了两极分化。截止 11 月 8 日,该剧在豆瓣上的评分为 5.7 分。相比较胡歌之前《琅琊榜》的 9.1,《伪装者》的 8.3 等来说,这一评分确实不高。有趣的是,首页的评分比例与“短评”、“剧评”的比例存在非常大的差异!

首页总评分评分两级分化严重,“差评”占主 在目前 11463 个评价中两级分化严重,“1 星”占比最高为 28.6%,其次为“5 星”的 25.4%。“好评”(5 星、4 星)占比为 35.80%,“一般”(3 星)为 16.50%,“差评”(2 星、1 星)占比为 47.80%。很明显,“差评”占了接近一半的比例。

《猎场》豆瓣评分占比分布

在短评和剧评中的另一种景象 首页的豆瓣评分中“差评”占比很高,但是在豆瓣的短评和剧评中却是另一番景象。 在目前 5979 条短评中,“好评”占比 71%,“一般”为 5%,“差评”占比 24%。而在 392 条剧评中,“5 星”占了非常高的比例!84.7%的剧评给了“好评”。

《猎场》剧评评分分布

我们将三个位置的评分放在一起比较就会出现非常明显的差异。根据这个差异,我们可以大致判断:写出短评或者剧评的观众大部分给予了“好评”,但仍有大量观众直接给了差评,并没有说明任何原因。当然,我们并没有考虑那些不写评论,而只是点“有用”和“没用”观众。

才刚刚上映,剧情还在慢慢的铺,所以现在给整部剧下定论还太早。

《猎场》到底好不好看?我们还是想通过以 11 月 8 日为界,看看人们短评人的情绪,是积极,还是消息。利用词云看看大家都说了什么,希望能大家就是否建议观看给出建议。

一、爬取《猎场》热门短评,豆瓣的爬虫做的比较好,不登录爬虫很快就会被屏蔽掉,登录后获取 cookies 如下:

同时建议在循环抓取的时候进行 sleep,例如:

time.sleep(1 + float(random.randint(1, 100)) / 20)

《猎场》热门短评内容和时间爬取了 22440 条评论,代码如下:

import re
import requests
import codecs
import time
import random
from bs4 import BeautifulSoup
absolute = 'https://movie.douban.com/subject/26322642/comments'
absolute_url = 'https://movie.douban.com/subject/26322642/comments?start=23&limit=20&sort=new_score&status=P&percent_type='
url = 'https://movie.douban.com/subject/26322642/comments?start={}&limit=20&sort=new_score&status=P'
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:54.0) Gecko/20100101 Firefox/54.0','Connection':'keep-alive'}
def get_data(html):soup=BeautifulSoup(html,'lxml')comment_list = soup.select('.comment > p')next_page= soup.select('#paginator > a')[2].get('href')date_nodes = soup.select('..comment-time')return comment_list,next_page,date_nodes
if __name__ == '__main__':f_cookies = open('cookie.txt', 'r')cookies = {}for line in f_cookies.read().split(';'):name, value = line.strip().split('=', 1)cookies[name] = valuehtml = requests.get(absolute_url, cookies=cookies, headers=header).contentcomment_list = []# 获取评论comment_list, next_page,date_nodes= get_data(html,)soup = BeautifulSoup(html, 'lxml')comment_list = []while (next_page != []):  #查看“下一页”的A标签链接print(absolute + next_page)html = requests.get(absolute + next_page, cookies=cookies, headers=header).contentsoup = BeautifulSoup(html, 'lxml')comment_list, next_page,date_nodes = get_data(html)with open("comments.txt", 'a', encoding='utf-8')as f:for node in comment_list:comment = node.get_text().strip().replace("\n", "")for date in date_nodes:date= node.get_text().strip()f.writelines((comment,date) + u'\n')time.sleep(1 + float(random.randint(1, 100)) / 20)

二、对数据进行清洗:

import pandas as pd
import matplotlib.pyplot as plt
date_name=['date','comment']
df = pd.read_csv('./comment.csv',header=None,names=date_name,encoding= 'gbk')
df['date'] = pd.to_datetime(df['date'])

样本数量:

print(df['date'].value_counts())
获取2017-11-06 – 2017-11-08 数据:

data6 = df['2017-11-06':'2017-11-08']
data6.to_csv('6.txt', encoding = 'utf-8', index = False)
print(data6.size)
5775
获取2017-11-092017-11-17 数据:
data9 = df['2017-11-09':'2017-11-17']
data9.to_csv('9.txt', encoding = 'utf-8', index = False)
print(data9.size)
16665

三、情感分析和词云

对热门短评基于原有 SnowNLP 进行积极和消极情感分类,读取每段评论并依次进行情感值分析(代码:https://zhuanlan.zhihu.com/p/30107203),最后会计算出来一个 0-1 之间的值。

当值大于 0.5 时代表句子的情感极性偏向积极,当分值小于 0.5 时,情感极性偏向消极,当然越偏向两边,情绪越偏激。

2017-11-06 – 2017-11-08 分析:

从上图情感分析(代码:https://zhuanlan.zhihu.com/p/30107203 )来看,影评者还是还是非常积极的,对《猎场》的期望很高。

从词云(代码:https://zhuanlan.zhihu.com/p/30107203 )上来看:

2017-11-09 – 2017-11-17 分析

从上图情感分析(代码:https://zhuanlan.zhihu.com/p/30107203 )来看,积极的情绪已经远远超过消极的情绪,还是受到大家的好评。

从词云(代码:https://zhuanlan.zhihu.com/p/30107203 )上来看,出现好看、剧情、期待、喜欢等词。

总结

词云的背景是胡歌,大家看出来了嘛?目前豆瓣的分数已经是 6.2 分,目前剧情过半,相信接下来会更精彩,个人认为分数会在 7.5 分以上。

抛开豆瓣的推荐分数,通过的热门短评的情感和词云分析,是一部不错的现实剧,剧情犀利、深刻、启迪,很多人期待。如果您有时间,不妨看一下,或许能收获一些意想不到的东西。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/47774.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

你评论,我赠书~【哈士奇赠书 - 13期】-〖Python程序设计-编程基础、Web开发及数据分析〗参与评论,即可有机获得

大家好,我是 哈士奇 ,一位工作了十年的"技术混子", 致力于为开发者赋能的UP主, 目前正在运营着 TFS_CLUB社区。 💬 人生格言:优于别人,并不高贵,真正的高贵应该是优于过去的自己。💬 &#x1f4…

【Thunder送书 | 第三期 】「Python系列丛书」

文章目录 前言《Python高效编程——基于Rust语言》《Python从入门到精通》《Python Web深度学习》《Python分布式机器学习》文末福利 | 赠书活动 前言 Thunder送书第三期开始啦!前面两期都是以【文末送书】的形式开展,本期将赠送Python系列丛书&#xff…

chatgpt赋能python:Python怎么隐藏密码:常用的方法和技巧

Python怎么隐藏密码:常用的方法和技巧 互联网时代,用户需要经常输入账号密码来进行在线交互。但是,账户密码的安全性问题也随之而来。为了防止私人信息被泄露,很多应用程序都需要对用户密码进行加密和隐藏。本文将介绍Python中常…

chatgpt赋能python:Python安装和打开教程

Python安装和打开教程 Python作为一种高效、灵活、易学易用的编程语言,越来越受到广大程序员的青睐,越来越多的人想要学习Python。在学习Python之前,首先要进行Python的安装和打开。那么,本篇文章将为您介绍如何安装和打开Python…

10分钟建立一个自媒体秘书——国产企业级大模型文心千帆初体验

目录 一、文心千帆简介二、模型搭建与调优2.1、数据准备——为秘书准备资料2.2、模型调优——为秘书安排培训课2.3、模型发布——让秘书开始上班 三、大模型助力产业智能化变革3.1、AI航海的启航引擎——大模型3.2、文心千帆体验心得 当一个轻轻松松的甩手掌柜,让AI…

微信登录的接口

目录 第一步:生成微信扫描二维码(网页内嵌的二维码)接口第二步:处理微信回调 ,获取扫描人信息 微信开放平台: https://developers.weixin.qq.com/doc/oplatform/Mobile_App/WeChat_Login/Development_Guide.html 第一步&#xf…

IBOX NFT 数字藏品价格 监控 工具 科技

IBOX NFT 数字藏品价格监控工具 科技 -7月25号 由于原来的pc版本的科技使用的web端口,迫于ibox关闭的web端下单接口 所有不得已又开发了一个android的科技自用 锁单、监控、公告自动锁单、抢购、查询仓库交易信息 ibox 数字藏品最近比较火,所以开发…

通达信插件获取并存储通达信商品指数的实时数据

一、引子 通达信商品指数一共有23个,如下图所示: 如果想获取历史数据,只需要通过通达信的数据下载和导出功能即可,现在我们需要获取这23个指数的实时数据,通过导出功能就没有办法了。 在最初的阶段,考虑的…

免费获得筹码分布接口交易数据,Tushare的使用方法

在做量化交易时需要活动历史数据,Tushare是一个免费提供各类金融数据 , 助力智能投资与创新型投资的平台。在这个平台上可以免费获得股票、期货和外汇的各种数据。下面就给大家介绍一下Tushare的注册和使用方法。 使用流程是:1、用户注册 - 2、用户使用…

哪个软件能实盘测试策略,Quicklib提供期货CTA策略实盘模拟监控的好工具(原创)...

大家都知道开发期货程序化交易,是一个非常繁杂的工作,并且在策略实盘运行过程中,很难提供一个资金曲线进行查看,我开发了一款资金曲线分时图工具,可以将期货CTP账户的资金曲线绘制出来,方便检查实盘策略中的…

HCIA第二天笔记

思维导图 HCIA第二天笔记 IP报文头部 图 第二行分别是:标识字段,标志位和片偏移字段 标识字段:相当于序列号,假设给第一个分片的报文序号随即为x则后续的每个报文1 标志位&#xff1…

鸿蒙系统走进大学课堂,华为鸿蒙系统HarmonyOS课程走进高校,武汉大学等高校将授课...

推动华为鸿蒙系统HarmonyOS高速发展的机会来了,当前已得到权威确定,华为鸿蒙系统HarmonyOS课程将走进高校,在武汉大学等15个高校将正式开展harmonyOS授课。据业内人士表示,此举将推动鸿蒙系统HarmonyOS在国内的普及,包…

HCIA (学习笔记二)

华为eNSP 以上图拓扑图为例 增加拓展结构 可以在此对路由器进行拓展 将所需的拓展面板拖进拓展板即可 配置 华为根据所属权限不同把设备分为不同的视图 <huawei> 尖括号为用户视图—只有查看权限 [huawei] 方括号为系统视图—可以进行全局配置 [gaomin-GigabitEthern…

HCIA-HarmonyOS Application Developer——题目集3

题目1 1、&#xff08;多选&#xff09;开发者在使用JavaUl框架时&#xff0c;会用到各种组件来创建一个页面&#xff0c;以下哪些XML属性&#xff0c;是所有组件通用的? A、id B、width C、theme D、clickable 解析&#xff1a;&#xff08;ABCD&#xff09; 题目2 2、&…

华为技术官又出神作,鸿蒙操作系统完整文档笔记现已疯传

操作系统&#xff08;Operating System&#xff0c;简称OS&#xff09;是管理和控制计算机硬件与软件资源的计算机程序&#xff0c;用户和计算机的接口&#xff0c;同时也是计算机硬件和其他软件的接口。 其能管理计算机系统的硬件、软件及数据资源&#xff0c;控制程序运行&a…

【鸿蒙应用开发】 【HCIA认证】学习笔记3

文章目录 1.正确的人&#xff0c;通过正确的设备&#xff0c;正确地使用数据2.HiLog3.架构图4.Data5.Image7.通知8.JS FA调用Java PA的机制9.NetworkID10.内核层 考点说明 1.正确的人&#xff0c;通过正确的设备&#xff0c;正确地使用数据 在搭载HarmonyOS的分布式终端上&…

华为鸿蒙系统深度研究 (PPT演示)

感谢阅读&#xff0c;欢迎扩散传播&#xff01;感谢&#xff01; ????点击关注GitHub科技???? 更多鸿蒙文章&#xff0c;共建鸿蒙生态 华为鸿蒙系统是安卓套壳&#xff1f;直接看代码 HarmonyOS到底是不是Android套皮&#xff1f; HarmonyOS完全升级攻略&#xff1a;消…

鸿蒙ArkTS第一次作业

主要目录配置文件作用&#xff1a; stage模型&#xff1a; FA模型&#xff1a; 语法基础知识&#xff1a; ArkTS 是华为自研的开发语言。是2022年下半年新推出的语言&#xff0c;它在TypeScript&#xff08;简称TS&#xff09;的基础上&#xff0c;匹配ArkUI框架&#xff0c;扩…

【鸿蒙应用开发】 【HCIA认证】学习笔记1

文章目录 1.page生命周期2.跨设备迁移Page3.原子化服务4.config.json5.visibility6.权限7.intent8.线程8.服务卡片10.APP Pack 考点说明 1.page生命周期 MainAbility拥有MainAbilitySlice1和MainAbilitySlice2 当MainAbilitySlice1导航到MainAbilitySlice2时 调用顺序是这样的…

【鸿蒙应用开发】 【HCIA认证】学习笔记2

文章目录 1.idl2.Service3.关系型数据库4.分布式接口5.视频播放功能开发步骤6.Java UI框架7.JS UI框架8.布局9.内外边距10.数字签名 考点说明 1.idl 在开发HarmonyOS应用时&#xff0c;如果客户端和服务端需要跨进程通信&#xff0c;可以使用idl来定义两者均认可的编程接口。 …