数据分析(一)豆瓣华语电影分析

在之前,我们已经用通过爬虫获取了豆瓣华语电影共33133部电影的数据,具体爬虫介绍请见之前的博文,爬虫实战(一)利用scrapy爬取豆瓣华语电影。本文对爬虫过程进行简要概述后,对这部分数据进行分析。

1. 前言

随着生活的水平提高,人们开始了对精神生活的追求,电影已经成为我们生活中必不可少的一项娱乐活动。近年来,中国电影产业发展迅速,华语电影数量和票房也频频突破新高。而一个行业的发展,不仅需要数量,还要质量。那华语电影近些年整体的质量如何呢?本文通过对豆瓣华语电影数据进行爬虫和分析,带大家了解华语电影这些年来的产量质量趋势、影片类型分布,以及哪些导演或演员是好片或烂片专业户。

2. 数据获取

在分析豆瓣网页结构后,使用python的Scrapy框架爬取了豆瓣华语电影,即中国大陆、香港、台湾地区总共33133部,并将数据存储在本地的MongoDB数据库中。对于每部电影,收集以下12个字段:

  • id: 豆瓣id
  • title: 电影名称
  • year: 上映年份
  • region: 制片地区
  • language: 语言
  • director: 导演
  • type: 类型
  • actor: 主演
  • date: 上映日期
  • runtime: 片长
  • rate: 评分
  • rating_num: 参与评分人数

具体示例如下:
数据描述

3. 数据清洗

在进入分析之前,需要对获取的数据进行清洗和处理。首先,使用pymongo模块将数据库中的数据导入,接着使用pandas库进行处理。

3.1 缺失值处理

通过打印每一列的空值统计,可以看到部分列都存在空值。之前在数据爬取的过程中,发现一般如果电影是在院线上映的且年代不是特别久远的,所有的信息都很完整。如果出现导演、演员、上映日期等的一些列为空的,大部分是网络电影或者是没有上映的。所以这里将在演员、导演、语言、类型、上映时间这5列中任一列出现空值的数据都做删除处理。另外对于年份一列有缺失的,采用上映日期的年份进行填充。

3.2 数据格式处理

为了后续分析方便,将部分列的数据格式进行转换,如将评分和评分人数这两列由string类型分别转为float类型和int类型;将语言一列list中的"/“分割改为”,"分割等。

3.3 增加辅助列

通过观察数据发现,如果一部电影是多个地区合作制作的,那么地区这一列的list中就有多个地区的元素。以这种展现形式,不便于后续以地区为维度进行分析。因本文主要分析华语地区,即中国大陆、香港、台湾,于是增加三列辅助列,属于该地区则标记为1,否则为0。如果某部电影的制作地区同时出现中国大陆、香港、台湾,则这三列辅助列都标记为1,表示同时属于这三个地区。对电影类型一列,也做类似的处理。

3.4 数据筛选

在爬取的电影中,可以看到有些电影的影片类型是综艺节目、脱口秀、晚会等,另外有些电影有上映日期但未上映的。因此,对这部分数据进行剔除,只保留豆瓣电影筛选页面显示的22个分类以及已经上映的电影数据。

4. 数据分析

数据清洗处理完毕,接下来对数据进行分析。下文的画图工具,采用plotly库,它可以使用简单的代码实现较复杂的功能。

4.1 行业产量和质量分析

4.1.1 总体发展趋势

虽然今天的我们到电影院或者在网上看电影已经是十分平常的事情了,可是对于上个世纪可能还是属于一项相对“奢侈”的活动,那么我们就首先从电影行业的整体发展情况来分析一下近些年来华语电影的趋势。
华语电影年产量趋势

注:此数据截止到2018年10月初

从图中可以看到,整个华语地区,在1947年之前每年电影产量只有零星几部;从上世纪60年代开始到21世纪00年代,处于平缓发展的阶段;从2010年开始,华语电影发展迅猛,2017年年产量达到1730部,约为2010年的5.3倍。

下面以每年电影的均分来看,在数量增加的同时,质量是否有提升呢?
华语电影评分趋势

从图中看出,近些年来华语电影评分总体上呈现下降的趋势,到2016年开始才略有回升。那到底是什么导致了这个评分趋势呢?接下来,我们画个箱体图来看下每年评分的分布情况。
华语电影评分箱体图趋势

可以看到之前电影的分数段都比较集中,而近些年评分分布越来越广,从2分到接近10分的电影都有。在箱体图中,q1(图中每个长条形的下方)代表的是第一四分位,即有25%的电影评分小于此值。同理,q3(图中每个长条形的上方)有75%的电影评分小于此值。通过观察可以发现,q1、q3的值同均值的趋势一致,近些年呈现下降的趋势。这也就代表了,近年来高分片数量减少而烂片的比例增加,导致均分的下降。而此状况的好转,是2016年均分开始有所回升的原因。

结论:近些年华语电影的数量剧增,但质量并未提高,而是呈现相反的趋势。除了影片本身制作的原因,也有部分是因为生活水平的提高,人们对精神需求质量的要求也越来越高。

4.1.2 地区对比

华语电影主要有大陆、香港、台湾这几个制作地区,那么接下来,我们来对比这些地区的情况。
不同地区电影年产量对比

从图中可以发现,香港电影是华语电影的先驱者,20世纪整个华语电影几乎是由香港主导的。但进入2000年后,香港电影的产量下降,与此同时,大陆电影发展迅速,于2005年开始反超香港地区,替代其成为华语电影新的主导者。而台湾地区,除了六七十年代有一波发展之外,几乎处于停滞不前的状态。

不同地区电影评分趋势对比

可以看到虽然台湾的产量较少,但从1983年以来,平均质量优于其他地区。而印象里,八九十年代的香港电影还不错,但从图中观察到,那时候香港电影的均值低于总体水平,反而是大陆地区的电影在那个年代整体质量比较高。

结论:可以看出大陆电影在这些年的发展比较迅猛,但是在电影市场如此繁荣的今天,大陆电影的质量却越来越低,这或许是和这些年发展的过快而没有注重质量有关系;香港地区进入21世纪后,产出影片数量减少,同时质量也呈现下降趋势,但近些年总体质量优于大陆地区;相比之下台湾电影虽然产量较少,但是整体的质量在三个地区中都比较高,也许与其追求文艺色彩,而不是商业化和娱乐化的特点有关。

4.2 影片类型分析

电影的题材有很多种,那么华语电影中不同题材情况是怎样的呢?我们首先分析一下不同类型的电影的数量情况。

不同类型电影数量

从图中可以看到,剧情、喜剧、动作、爱情这几类的电影数量远超其他类型,其中剧情类最多,约为第二名喜剧类的1.85倍。而数量最少的类型是情色、灾难、西部片。那么哪种类型的电影关注度最多呢?
不同类型电影关注度

电影的评分人数越多,说明此电影看过的人数越多,可以从侧面反映电影的关注度。所以我们用平均评分人数的指标,来看不同类型电影的关注度。数量最少的西部片竟然是排名第一的,为什么关注度会这么高呢?华语有哪些电影是属于西部片呢?

华语西部片
原来是让子弹飞和无人区这两部电影拉高了西部片的平均评分人数。另外,让子弹飞是在本次爬取的全部电影中关注度Top2的,第一名为霸王别姬,一共有848429条评分。

接着,我们来看一下不同电影类型的质量。

不同类型电影质量

西部、传记、歌舞这三类质量为Top3,且这三者间差距都在0.1分以内。而排名垫底的是情色、惊悚、悬疑,而这几类关注度并不是很高。评分人数与评分之间会不会有什么关系呢?

不同类型电影评分人数与评分的关系

似乎没发现什么值得关注的结果,如果不以类别的平均值,而是以每部电影为维度呢?在这里我们将评分人数小于500的电影剔除,避免一些因为评分人少而出现的偏颇情况。

评分人数与评分的关系

从图中可以看到,评分较低的,关注人数也较少。如评分小于5分,除少数几部外,其他的评分人数是在200k以下。而评分很高的电影,并不是都有很高的关注度,也有一些没什么人关注的。

结论:华语电影主要以剧情、喜剧、动作、爱情这几种影片类型为主,其中西部、奇幻、同性关注度最高,而西部、传记、歌舞这三类质量最高。评分与关注人数的关系,评分较低的关注人数也较少;而评分很高的电影中存在一些暂未被很多人发现的好电影。

4.3 导演、演员分析

这一部分,我们来看一下哪个导演、演员属于好片或者烂片的专业户。这里好片的定义为评分大于等于8.5分,烂片为评分小于6分的电影。另外,此部分分析只针对执导或主演5部以上电影的导演和演员。

好片占比排名前10的导演

图中为好片占比Top10的导演,排名Top2分为是台湾导演杨德昌和香港导演王家卫,他们是拿过戛纳电影节最佳导演奖的仅有的两名华语导演。可能大家对王家卫比较熟悉,这里就科普一下杨德昌。他是台湾新电影的重要代表人物之一,一共执导过8部电影,其中5部评分在8.5分以上,好片占比为62%,他的五部好片分别是《一一》、《独立时代》、《牯岭街少年杀人事件》、《恐怖分子》以及《麻将》。

另外,这10名导演中,除魏德圣、桑弧这两位导演各有一部烂片外,其他的导演均没有执导过6分以下的电影。
烂片占比排名前10的导演
接着我们来看一下烂片占比排名10的导演,郑成峰、姜国民、管晓杰、黄柏基这四位导演的烂片比例达到了100%!

好片占比排名前10的演员

而在演员中,台湾演员文英的好片占比最高,为50%。值得注意的是在这10位演员中,台湾和内地演员各占50%,台湾演员除澎恰恰外,其他几位近10年内都有作品;而内地演员不是配音演员,就是活跃在上个世纪的已经息影或离世的演员。

烂片占比前10的演员

烂片占比前10的演员榜中,除邓家佳外,其他演员的烂片占比都为100%。其中大部分为内地新生代且小透明的演员。
部分演员好烂片分布情况

可能大家在刚刚的分析中都没看到自己比较熟悉的演员,这里将一些比较有名的演员挑出来。从图中可以看到,部分演员参演作品的数量惊人,但好片数量却只有几部;也有几位演员的演技是大家都比较认可的,但可能挑电影的眼光不太好,其参演的作品风评都比较一般。

结论:在好片占比前10的导演中,可以看到这些导演都实至名归,且被大家较为熟知;而在演员中,我们熟知的演员均不在好片占比前10的榜单上,有些演员人气很高但参演的好片寥寥无几,有些演员演技可以但挑片眼光不佳。

5. 后记

数据集中其实还有更深入或者其他可以分析的地方,但因篇幅有限,只能先挑一部分。大家看完后,如果还有什么想要了解的,可以在底下回复,小编会在下一篇进行分析哦。

最后,回顾一下本文的主要思路,先是确定主题,接着获取数据,之后对数据进行清理、筛选,最后对数据进行可视化和分析。而这也是做一个数据分析项目基本的流程,其中数据获取和数据处理是最为基础的。如果有现成的数据集,直接从csv文件、数据库等导入即可。但一般来说,我们并不是经常能找到合适的、且最新的现成数据,这时就需要通过爬虫获取。爬虫是一项挺耗时的工作,如何应对网站的反爬、提高爬虫效率很关键。除了爬虫外,数据清洗也是一项基础、耗时又繁杂的工作,它直接决定后续数据分析的效率和质量。小编在完成本文的过程中,爬虫和数据清洗占了大部分的时间。

6.福利

  • 获取9分以上且评价人数大于20万的一定不要错过的华语神片。
  • 本文数据集和代码见我的gutihub
    本文同步发布在我的个人博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/61981.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python猫眼电影数据采集与可视化分析实战

在国内比较知名的电影数据平台应该就是豆瓣、猫眼了,别的使用的不是很多,这两个平台就我们来说,平时的实践依赖还是比较多的,今天主要是想基于猫眼电影数据做一点分析性的工作,在我之前的文章中,基于豆瓣影评数据的采集、处理、存储、分析、可视化整个流程已经做了详细的…

践行社会责任的路上,中概股们看到了怎样的风景?

谈起社会责任,你会想到什么?绿色经济、“双碳”目标、共同富裕、乡村振兴、慈善活动、ESG(环境、社会和公司治理)这些名词肯定少不了。 当下,全球企业正越发强调社会责任,这或许是商业发展到一定阶段的必然结果,但也离…

第九届北京国际电影节海报,对你发起邀请

文丨夏莎莎 你看>丨创意视觉设计(ID:fvatm0525) 第九届北京国际电影节海报,你肿么了? 来自官方的海报文案 敲重点,好好学习昂 强行乱入的文案 四月的北京 水绿 云淡 风轻 天坛女神 屹立苍穹 脚踏大地 播…

遇见·戛纳--张全欣《遇见·环市路》

遇见戛纳--张全欣《遇见环市路》 今年的第71届戛纳电影节,不仅仅是西方电影的专属舞台,以中国为代表的亚洲电影以及种种正式参与或蹭热度的新闻层出不穷。 提起法国,大家想到的是:浪漫、时尚、奢华。 而提起法国戛纳,必…

当电影节遇上VR,会擦出怎样的火花?

2016年VR产业异常火爆,国际上各大电影节也纷纷掺和其中。 2016年被称为VR元年,如今元年已过半,我们见证了一大批VR的硬件设备的出现,也看到资本市场正在呼吁高品质的VR内容。VR产业是如此的火爆,国际上各大电影节也纷…

法国戛纳计算机大赛,大赛|2021法国戛纳金狮奖(截至2021.4.15)

原标题:大赛|2021法国戛纳金狮奖(截至2021.4.15) 金狮奖是威尼斯国际电影节的最高荣誉,从1949年开始颁发,被认为是电影界最高荣誉之一。金狮奖与金棕榈奖、金熊奖并称为电影节三大最高荣誉象征。 我们的九大主题反映了全球品牌传播…

明星的阶梯:威尼斯电影节 | 经济学人早报精选20210831

文 / 王不留(微信公众号:考研英语笔记) 2021年8月31号的早晨,来杯“经济学人浓香咖啡”,提神解困。 Staircase to stardom: Venice’s film festival The Venice International Film Festival kicks off this week. Th…

又见上海电影节抢票热,电影节不该只有狂欢

特约作者 | 李勤余 6月8日,第22届上海国际电影节于上午8点开启网络售票。开票首日5分钟内线上售票近15万张,半个小时内售票数突破20万张。对熟悉上影节的观众来说,上述数据不会让人感到太过吃惊。手快有、手慢无,如何通过各种手段…

第70届戛纳电影节:优酷全网首次广播级直播,阿里云提供海外专线技术

近日,第70届戛纳电影节在法国举行,共有来自13个国家的20部影片角逐最佳影片金棕榈奖。作为欧洲三大电影节之一,自然是明星和影迷追逐的焦点。为了让不能亲赴戛纳感受现场氛围的影迷没有遗憾。优酷全网率先采用了眼镜采集实时回传、VR信号实时…

优酷多角度全高清直播,如同身临第70届戛纳电影节

近日,第70届戛纳电影节在法国举行,共有来自13个国家的20部影片角逐最佳影片金棕榈奖。作为欧洲三大电影节之一,自然是明星和影迷追逐的焦点。为了让不能亲赴戛纳感受现场氛围的影迷没有遗憾。优酷全网率先采用了眼镜采集实时回传、VR信号实时…

环球夫人形象大使龚华 受邀出席戛纳电影节闭幕式

戛纳电影节已经进程过半,世界名流云集于此,你来我往好不热闹。昨天,小编同大家一起欣赏了华人女星在戛纳红毯上的风姿。今天,小编还要与大家分享一条十分令人欣喜的消息:5月21号我们的环球夫人龚华成为首位受邀出席戛纳…

戛纳电影节百花齐放,中国明星衣着品味紧跟时尚前沿

一年一度的戛纳电影节于当地时间的5月14日晚正式开幕。作为欧洲三大国际电影节的其中一员,其所具备的影响力不言而喻,因此受到了来自世界各地的电影创作者的亲睐。每年能走上戛纳红毯的艺人也就象征着与国际艺术的接轨,同时也证明了自己在电影…

2021年中国游戏行业发展现状及行业发展趋势分析[图]

在数字经济蓬勃发展的背景下,我国的游戏产业也在发挥资源和用户优势,推陈出新,通过技术驱动、产业融合和文化创新等方式加快产业发展步伐,在“加快数字化发展,建设数字中国”的战略目标指引下,在互联网技术…

游戏用户行为以及消费分析

一、分析目标 为了了解当前游戏的运营情况,对游戏从以下四个方面进行分析 1.新增玩家分析:从玩家数量、付费玩家占比、每日新增玩家数 2.玩家活跃度分析:从不同用户在线时长、分布特征展开分析 3.玩家付费情况分析:从PUR&…

中国游戏的未来在哪里 - 游戏行业20年历史观察及趋势分析

原文地址入口 文/许怡然 自从3月离开360之后,已经很久没有出现在国内游戏圈里了,因为选择了在一家香港上市的游戏公司工作,这段时间一直在海外市场到处看,也花了不少时间思考整个游戏行业的发展历史和未来趋势,对比中…

互联网的世界里,游戏行业的现状是如何?

今年9月,笔者曾经在一篇报道中讲述了银河数娱的困境。当时整个集团的员工都被迟发工资,迟缴公积金,陈二狗也不能幸免。 于是制作人和研发领导开始找他谈话:如果你主动离职,公司就立刻跟你结清拖欠的工资,并…

Play-To-Earn游戏将接管电子游戏行业?

来源/micky.com 编译/Ivans 在最初的链游风暴刺激了Facebook向Meta转型之后,P2E玩赚市场正在进入冷静期。在下一个牛市周期开始和主要游戏发布之前,重要的是要考虑我们即将面临的重大变化。 以下是P2E改变开发者商业模式的一些关键方式,但也将…

目前游戏行业内部主要几款游戏引擎的技术对比

如果只有客户端的话,可以考虑用gamebryo,技术好一点,用ogre也可以,如果规模不大,用unity3d,如果很有钱,要效果很好的,用unreal3,bigworld是带服务器的,如果能力不够,最好…

游戏出海正当时,突破文化壁垒或成为关键

关于国产游戏出海,首先让我们看一组数据:据《2021年中国游戏产业报告》披露,2021年中国自主研发游戏海外市场销售收入达180.13亿美元,较去年增加25.63亿美元,同比增长16.59%,而同期中国移动游戏市场销售收入…

游戏出海市场广阔,渠道差异及发行策略应受到企业关注

1、全球移动游戏市场规模稳步提升,中国游戏企业自研产品出海势头强劲 2020年中国移动游戏市场规模为2,646.5亿元人民币,同比增长43.0%,相较去年同期提升显著。预计此后两年仍将保持高于10%的增长率,2022年将达3,399.9亿元人民币&…