python爬取百部电影数据,我分析出了一个残酷的真相

2019年就这么匆匆过去了,就在前几天国家电影局发布了2019年中国电影市场数据,数据显示去年总票房为642.66亿元,同比增长5.4%;国产电影总票房411.75亿元,同比增长8.65%,市场占比 64.07%;城市院线观影人次17.27亿,同比增长0.64%。

看上去似乎是一片大好对不对?不过作为一名严谨求实的数据分析师,我从官方数据中看出了一点端倪:国产票房增幅都已经高达8.65%了,为什么观影人次增长不足1%?

到底为什么会出现这样的现象,最好的办法就是从数据中找答案。我们说干就干,按照老规矩,先用python爬取数据、再用BI进行数据分析,最终事情的真相就会显现在我们面前。

一、分析目的和分析指标

首先明确我们数据分析的目的,根据2019年电影的数据分析国内电影市场,主要是为了找到票房与观影人次的关系。

怎么去衡量一部电影的好坏呢?懂电影的人应该都知道这么几个指标:“电影票房”、“票房占比”、“上座率”、“排片比”、“评分”等等,其中我们的数据源就用猫眼电影吧,但是因为猫眼评分门槛很低,可能充斥着很多水军,所以这次就不用“评分”这个指标了。

python爬取百部电影数据,我分析出了一个残酷的真相

 

二、python爬取

下面就要开始爬取数据了,因为猫眼电影的网页结构比较简单,爬取操作比较简单,所以这里我就不详细展示了,只说几步需要注意的地方就行。

注:源代码可以在后台私信回复我 “电影” 获得!

1、先看看结构

从猫眼电影上可以看到我们要爬取的网页,首先要提取出这个网页的信息,在了解了大体的情况之后,就右键选择查看网页的源代码,看一下我们需要爬取的数据信息在源代码中的什么地方。

 

python爬取百部电影数据,我分析出了一个残酷的真相

 

2、伪装成浏览器进行数据请求

这个方法就是老生常谈的事情了,这里不细讲了,在发送请求前加上headers参数即可。

python爬取百部电影数据,我分析出了一个残酷的真相

 

3、提取数据

猫眼里的电影票房等都是加密后的字体,因此我们需要解密字体。虽然字符的编码是变化的,但是对象是不变的。那么我们可以通过第一次下载一个字体文件origin.ttf,并把对应编码的字体写出来,当第二次从网上重新下载一个字体文件online_base64.ttf 的时候,可以对比对象信息,如果对象是一样的,那么就把第一次编码对应的文字赋值给第二次的编码,这样即可。

python爬取百部电影数据,我分析出了一个残酷的真相

 

4、主程序调用保存在excel中

首先需要建立一个空列表,将所有的数据添加到里面去。在之前的提取数据那个函数的时候,将print(data),改写成yield data,将所有的数据添加到一个列表之后就可以保存数据了。

python爬取百部电影数据,我分析出了一个残酷的真相

 

5、需要注意的地方

  • 下载一个基本字体路径,找到它对应的数字及其编码
  • 每一次爬取网页时,都要先下载该网页的字体文件,然后与基本字体文件作对比,获得爬取网页的数字对应编码。

三、BI分析

有了源文件,我们就可以进行BI分析了,至于为什么不用python是因为比较麻烦,像我们如果要做二八分析模型,代码写起来还是比较麻烦的,日常共工作中不太能满足需求。

所以一般来说我现在都是用专业的BI工具进行数据分析。目前市场上的BI工具十分繁多,但是性能也参差不齐,这里我就以国产BI工具的优秀代表FineBI为例。

注:想要获取finebi下载地址,可以后台私信回复“电影”获得!

1、数据连接

首先导入我们需要分析的数据,finebi可以连接Excel,CSV,XML,以及各类数据库,这里因为有了python爬取到的excel表,所以直接选择excel导入即可。

python爬取百部电影数据,我分析出了一个残酷的真相

 

2、数据加工

我们爬取到的数据可能需要第二次加工,比如脏数据处理、数据合并、过滤等等,FineBI是通过自助数据集的方式,根据需求对原数据进行再加工处理,新建一个用于分析的数据集,再处理包括选择字段、过滤、分组汇总、新增列、字段设置、排序、合并的操作。

python爬取百部电影数据,我分析出了一个残酷的真相

 

3、数据可视化

因为本次涉及到的指标比较简单,所以基本通过FineBI拖拽数据字段即可呈现可视化。

python爬取百部电影数据,我分析出了一个残酷的真相

 

四、结论分析

不说废话,先放结论:

  • 国内电影市场接近饱和,今年的成绩是虚假繁荣;
  • 头部效应加剧,大多数电影票房惨淡,市场成绩不佳;
  • 票房的增长基本是靠电影价格拉动起来的,观影人次基本没有增长,电影寒冬到来;

1、票房排名前二十的电影

python爬取百部电影数据,我分析出了一个残酷的真相

 

今年票房前二十名中一半以上都是国产电影,看似繁荣,但其实从上图的区间柱状图中能够看出,《哪吒》、《流浪地球》、《复联4》三部电影属于第一梯队,票房在40亿以上;《我和我的祖国》、《中国机长》、《疯狂的外星人》、《海王》属于第二梯队,票房在20-30亿左右;剩下的电影中基本在20亿以下,排名20的《银行补习班》只有8亿。

整体来说,去年国内电影市场爆款较多,但是整体呈现阶梯状,断崖较多,大部分集中于前五名之中,大体上符合二八法则。

2、票房的帕累托模型

为了搞清是否真的符合帕累托法则,我特意用FineBI加入了一条票房累积百分比:

python爬取百部电影数据,我分析出了一个残酷的真相

 

结果很明显,排名前20%的电影占据了整个市场80%以上的票房总量,也就是说,去年国内市场的票房总量基本上靠着几大爆款电影撑起来的,票房分布越来越集中绝对不是一件好事,这意味大多数的电影成绩惨淡,根本没有生存空间。

3、票房占比、排片率与票房的关系

  • 票房占比:电影票房收入占总收入的比例,票房占比越高,说明电影质量越好,人们越想看;
  • 排片率:排片率高、票房低就是烂片,而排片率低、票房高的电影才是黑马;

python爬取百部电影数据,我分析出了一个残酷的真相

 

这张图我们可以跟排名前二十的柱状图对比一下,真正意义上高票房、高票房占比、低排片率的黑马电影有哪些呢?答案只有一部《流浪地球》。

《哪吒》的排片率高是因为上映同期没有什么优质电影与之竞争,所以《哪吒》的成功一半要归功于人和,一半要归功于天时;《疯狂外星人》的表现中规中矩,《海王》属于典型的商业片,《我和我的祖国》属于特殊情况,不能一概而论。

4、上座率与票房的关系

  • 上座率:即一部影片获得观众人次的多少,优秀的影片上座率就高,反之则低

python爬取百部电影数据,我分析出了一个残酷的真相

 

为了方便对比,我在图中加入了一条平均上座率的警戒线,其中上座率最高的是《我和我的祖国》、《我为你牺牲》,原因就不说了,大家应该都明白;其中比较奇怪的是《飞驰人生》、《新喜剧之王》、《攀登者》,上座率非常高,票房成绩却不如人意,应该是得益于其导演、主演的号召力。

《流浪地球》上座率在平均值以上,无论从哪个角度看都是一部好电影,无懈可击。

值得欣慰的是,上座率排名靠前的基本都是国产电影,看的出来国外电影尚不能满足大多数人的口味。

5、做点其他分析

python爬取百部电影数据,我分析出了一个残酷的真相

电影类型与上座率的关系

喜剧电影一骑绝尘,动画电影黑马突起,科幻电影方兴未艾,惊悚、悬疑、历史等小众题材的电影仍然惨淡无比。

 

python爬取百部电影数据,我分析出了一个残酷的真相

颜色越深代表上座率越高,字体越大代表票房越高

陈凯歌现在虽然经常被烂片之王所诟病,但是不得不说他的成绩还是很不错的,另外像宁浩、韩寒、郭帆、陈国辉等人都是国产电影的希望。

最后别忘了,python源代码和BI下载地址,都可以私信我“电影”获得!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/52614.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

214 情人节来袭,电视剧 《点燃我温暖你》李峋同款 Python爱心表白代码,赶紧拿去用吧

大家好,我是徐公,六年大厂程序员经验,今天为大家带来的是动态心形代码,电视剧 《点燃我温暖你》同款的,大家赶紧看看,拿去向你心仪的对象表白吧,下面说一下灵感来源。 灵感来源 今天&#xff…

ChatGPT提示词分享1/100 写作助手

作为一名中文写作改进助理,你的任务是改进所提供文本的拼写、语法、清晰、简洁和整体可读性,同时分解长句,减少重复,并提供改进建议。请只提供文本的更正版本,避免包括解释。请从编辑以下文本开始:[文章内容…

家庭教育的重要性,家庭教育是一切教育的基石

在孩子整个教育的过程中,学校教育是处于主导地位的,而家庭教育起着关键的作用。 家庭教育,是国民教育体系的重要组成部分,是社会、学校教育的基础、补充和延伸。家庭教育伴随人的一生,影响人的一生,对一个…

关注家庭教育-父母对子女的期望

关注家庭教育 - 孩子有自己的追求 文章目录 关注家庭教育 - 孩子有自己的追求简要正文期望家庭教育公众号 简要 人对自己的子女都免不了有一些期望。我们对子女实际上只能存品德方面的期望,因为品德它是放之四海而皆准的。你可以希望你的小孩以后长大待人很热忱&am…

如何才能做好家庭教育?家庭教育的五个主要方面

家庭教育的重要性家庭教育自古以来就受到人们的关注,但近年来在中国被作为一门学科来研究。这是时代发展、人才需求、人民整体素质提高必须涉及的问题。在这里,我们和家长一起探讨家庭教育的重要性,让家庭、社会、教育部门共同承担起教育下一…

家庭教育中如何使用批评教育?

孩子做错了事,作为父母,你知道应该怎么批评孩子吗?在家庭教育中,如果批评用得不好,就会比较麻烦,会严重限制孩子的发展。 在一次线下活动中,我看到一个妈妈带着孩子,准备进行乐器表演&#xff…

使用tushare大数据平台对几种股票因子进行计算

写在前面 去年七月,笔者开始接触买入股票,近一年下来,投入的的钱亏了一半,股票市场不是基金市场,其中的残酷给我这个初来乍到的年轻人上了一课。当时,我就在想,买卖股票是否能够赚钱&#xff0c…

利用tushare获取股票数据-V2 +股票数据分析

一、利用tushare获取股票数据 上次利用tushare的API获取了一部分的数据,感觉不够齐全,所以现在更新程序 import tushare as ts import pandas as pdpro ts.pro_api() data pro.query(stock_basic, exchange, list_statusL, fieldsts_code) #实例化一个…

免费获取股票历史交易数据方法与代码获取股票实时数据方法集合

现在网上有越来越多开源的股票数据的获取方法,言简意赅,小编在这里提供2种方法去获取股票数据,第一种呢还是针对于所有的用户,通过使用第三方平台提供的方法来获取到所需要的股票数据。 方法一:使用免费的网站进行 详…

获取股票交易数据的Tushare的使用方法

博客:https://www.cnblogs.com/DreamRJF/p/8660630.html 以前不知道怎么从网上直接获取数据,都是从交易软件上下载数据,也只有个别的软件才能下载,例如通达信可以导出数据,现在学到了一种新的方法,利用tush…

四万字歌词分析:那些年,我们一起追的五月天到底在唱什么?

大数据文摘出品 作者:蒋宝尚、曹培信 你见过自带荧光棒、中途大合唱、放完不离场的电影观众么? 如果你去电影院看了《五月天人生无限公司》,那么,你一定明白文摘菌在说什么。 如果你还没有看过,文摘菌这里弱剧透一下&a…

歌词生成(一)-SongNet简述

歌词生成相较于普通文本生成,需要配合特定的乐曲,并演唱。因而要求,每句歌词演唱的长度正好合拍,即不同曲子,每句歌词的字符个数是要受限制于乐曲。 本文暂不考虑曲配词问题,只是将问题抽象为,…

Android 开源歌词控件 LyricViewX

Android 开源歌词控件 LyricViewX 开源地址 Github https://github.com/Moriafly/LyricViewX LyricViewX 是一个美观的安卓歌词控件。 基于 LrcView 设计。 效果展示 Dso Music Github https://github.com/Moriafly/DsoMusic 双语 拖动 单语 比较与 LrcView 100% Kotlin…

如何获取LRC歌词

在日常的剪辑或者是其他情况下,需要使用LRC歌词,不需要下载新的杂门软件就能获取lrc歌词,真的很心动了,这里以网易云音乐为例: 1、打开网易云音乐网页版,找到需要的歌词 2、按F12键,选择 Netwo…

从ChatGPT等大模型的兴起,看未来计算芯片的发展趋势

欢迎关注软硬件融合公众号: 编者按 ChatGPT的火爆,直接引爆了大模型的繁荣,也使得NVIDIA GPU供不应求。 从发展的角度看,GPU并不是大模型最高效的计算平台。 GPT等大模型为什么没有突破万亿参数?核心原因在于在现在的G…

GPU和CPU芯片区别:为何要用GPU挖矿?

CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景。CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理。这些都使得CPU的内部结构异常复杂。而GPU面对的则是…

2023全云在线联合微软AIGC专场沙龙:人工智能与企业创新,促进创造力的数字化转型

6月29日,由全云在线平台和微软联合主办的人工智能与企业创新:促进创造力的数字化转型——2023AIGC微软专场沙龙在广州天河区正佳万豪酒店举行。 关于2023AIGC微软专场沙龙 GPT翻开了AGI新的一页,也翻开了各行各业的新篇章。 2022年11月30日…

呼吁暂停 GPT-5 研发的马斯克,转身抢购 1 万个 GPU,为 Twitter 大模型做准备!...

整理 | 屠敏 出品 | CSDN(ID:CSDNnews) 曾不止一次地支持 AI 威胁论、曾与 OpenAI 分道扬镳、曾怒批 ChatGPT 唤醒人工智能、曾联合发起公开信,呼吁全球实验室应停止训练比 GPT-4 更强大的模型...... 毫无疑问,曾被 Fa…

个人掏5000万美元、获2.3亿美金认购,造中国版OpenAI,45岁前美团联合创始人王慧文再创业!...

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 「即便只有一个人,我也要出发」,2023 年 2 月 13 日,原美团联合创始人王慧文在社交媒体平台郑重地说道。 这一次他的目光不再是聚焦在社交关系网络平台、二手房网站、…

微软:多模态大模型GPT-4就在下周,撞车百度?

欢迎关注“ 计算机视觉研究院 ” 计算机视觉研究院专栏 作者:Edison_G 扫描二维码 关注我们 大家都在猜 GPT-4 发布时间,现在有人提前公布答案了,还是微软自己的 CTO。 转自《机器之心》 我们知道,引爆如今科技界军备竞赛的 ChatG…