豆瓣电影 数据分析

阅读 512
收藏 14
2018-08-10
原文链接:zhuanlan.zhihu.com

一. 前言

之前看知乎上有一个问题,豆瓣上一共收录了多少部电影?

我也比较好奇豆瓣上到底有多少部电影,然后我就试着抓取了豆瓣上我能找到的全部的电影,数据量大概是5.6W+的样子,和知乎上别人的答案也比较相似(别人的回答大概4W-5W,到2017年数据),我是获取到目前2018年最新的全部数据,也做了数据去重,数据量大概就是这个样子(当然也有些人得回答说有10W+的,我看下面的评论也说了,每个人对影视理解不同,那些10W+,甚至数据量更多的,是把电视剧,综艺等等都算进去了的,我这个数据是电影的数据,不包括电视剧那些)

既然获取了数据,那肯定要分析一下呀,豆瓣电影的各种详细的数据,评分,影评等等在国内同类型网站中,算是高质量的,所以进行数据分析也是有价值的。


二. 数据分析及可视化

1. 评分分布情况

可以看出豆瓣电影的评分分布情况基本是符合正态分布的,我计算了一下豆瓣全部电影评分的均值,为6.8分,2000年以后的豆瓣电影评分均值为6.6分(0,10分)。

中国大陆电影评分分布情况

大陆电影全部电影评分的均值,为6.1分,2000年以后的大陆电影评分均值为5.6分(0,10分)。

2. 每年电影数量变化情况

2000年以后的电影数量变化情况

2010年以后,上半年,下半年为区分,电影数量变化情况

豆瓣上收录的电影,最早的一部是1878年的,一部美国电影(准确说是一部短片)---飞驰中的萨利·加德纳,一直到2017年(2018年的数据不全,就没有将其可视化出来),可以看出来,每年电影的数量整体是很明显的上升的趋势,从2016年到2017年的数据来看,又有较明显的下跌,到2016年,这年的电影数量是一个顶峰值,因为2018年的数据不全,所以不好(预测)判断电影数量是否会一直下降下去。

3. 豆瓣的各项评分,评论等等参数之间的相关系数关系

这张图显示的是两个变量间的皮尔逊相关系数(两个变量间协方差和标准差的商),越接近1代表正相关,越靠近-1代表越负相关,0就是代表这两个变量间增长没有任何关系,“rates”表示评分(10分满分),“star”表示豆瓣星级(5星为满级),“一星,二星,三星,四星,五星”,分别代表其占比情况,“想看”表示这部电影想看的人数,“看过”表示这部电影看过的人数,“短评数”,“评价数”分别代表这部电影的写了短评的人数及评价了的人数(打了分就算评价,不用写评论),“year”表示年份。再看一下每两个变量之间的具体关系情况。

短评数量和看过人数之间的关系(正相关);

二星占比和四星占比之间的关系(负相关)

4. 每年电影评分占比情况

很多时候,不知道大家会不会有个感觉,现在的烂片是越来越多,好看的电影是一年比一年少,而多年前拍的电影比现在的电影质量好,这个感觉究竟是错觉,还是真实情况呢,现在从数据的角度来看一下

2000年以后均值以上和均值以下电影占比变化情况

2000年以后5分以下和5分到6.6分电影,以及6.6分以上的占比变化情况(6.6分是2000年以后电影评分均值)

热力图显示每年具体数量情况

每年评分分布直方图

从以上数据中,不难发现,

(1)原来烂片是真的在变多,2000年以后,低于均值6.6分的电影的占比是逐年递增;

(2)5分到6.6分的占比几乎没有什么变化,但是,随着时间增加(年),5分以下的电影数量占比却是一直在增加,而且,其占比的增长趋势是越来越明显;

(3)....(自己看数据分析);

所以,感觉近几年的电影,越来越难看,烂片越来越多,并不只是个人的主观意识,而实际就是电影难看,烂片多

而且国产烂片居然承包了豆瓣烂片榜前五名:

女娲日记荣获豆瓣烂片之王,评分倒数第一,前无古人,后.....

5.每年电影均值变化情况

中国大陆电影评分均值,及按照季度划分变化情况

图一
图二

全部电影评分均值,及按照月份划分变化情况

图三
图四

(1)中国大陆电影没有和“国际接轨”呀,从评分均值上来看,中国大陆电影在用力拖拽国际平均分呀;

(2)7,8月份和第三季度(7,8,9月)的电影评分均值都相对比较低,不管是全部的数据,还是只看中国大陆的数据;

(3)不管是中国大陆电影评分的数据,还是全部电影的评分数据,感觉都是一路在走低的趋势,不过到2017年,评分均值都有小幅度的上升,看来是在2016年触底反弹了;

(4)因为2018年数据不全,只在图三上放有2018年的均值记录,仅做参考,不过从趋势上来看,和2017年比较,电影均分是在增加的;

6. 豆瓣电影评分分布情况

(1)从均分的分布情况来看出来,评分分布最多的区间大概是6.5~7.5分之间,和我们计算的评分均值--6.8分也是不冲突的;

(2)整体来看,大部分电影都是超过5分的,所以说5分以下的电影是烂片一点也不过分。

7. 不同国家的电影总数量分布

米国的电影数量果然多,其次就是中国大陆,日本,不过比较惊讶的是,原来豆瓣上收录的电影,法,英,德都是超过韩国的(我以为韩国会很多)

8. 不同国家的评分均值情况

这里我只统计了,豆瓣收录某个国家或地区的电影,且收录数量超过500的国家或地区的数据(因为电影数量太少,比较均值意义不大,有些国家就一两部电影,靠这个来评估数据不准确),比如;

这些是均值排名最前面的10个国家,但是这些国家都只有1-3部电影,数据量太少,不具备广泛性,以此数据来代表一个国家或者地区的均值情况,统计出来的结果不是很科学。

收录数量超过500的国家或地区

电影数量500+的国家或地区评分均值,及数量分布情况

电影数量500+的国家或地区评分均值,及数值分布情况

从上图中可以看出

(1)美国的电影数量最多(之前已经得出过这个结论),中国大陆的电影均分最低;

(2)英国电影的评分均值最高,也就是说相对来讲,英国的电影的质量最高,不过从离散值也可以看出来,英国有部分数据的离散值很低,比如:“围攻唐宁街 ”,豆瓣2.4分,但还是没有国产神剧2.0分低;

(3)豆瓣收录有500+电影的的国家或者地区,大部分是发达国家,或者是中国,印度这种人口大国,说明电影数量的多少,可能和一个国家或地区的发达程度有一定的关系;

(4)...

9. 豆瓣高分电影的分布情况

豆瓣评分超过9.0的国家或地区的电影

豆瓣评分超过9.5的国家或地区的电影

电影评分9.0及以上的国家或地区(45个)的电影数量

电影评分9.5及以上的国家或地区(18个)的电影数量

(1)图中一个点代表一个国家,其中英国的9.5以上的电影的数量最多,其次是美国,日本,

说明英国的高分电影确实多,也和之前的结论想吻合--“英国的电影的质量最高”;

(2)9.0以上的电影,美国最多,但因为美国电影的数量基数最大,这个也属于正常情况,第二名还是英国,说明英国电影果然值得推荐,而且英国的电影数量基数不算特别大,只有美国的1/3不到;

10. 一个国家电影数量与电影评分的关系

图中一个点表示一个一个国家,比如最右边偏上的那个点,表示的是美国,因为美国的电影数量最多,通过置信区间来判断,随着电影数量的增加,电影评分均值是下降的趋势,看来拍的电影越多,烂片率也越高,当然烂片也就越多;

我觉得这也可以解释为什么2016年的电影数量最多(回过头去看,上面有分析的图),但是2016的电影评分均值却最低(上面也有图有分析),2017年电影数量有所下降,对应的电影的均分就有所提高;

所以,结论,拍电影越多,烂片率越高,烂片越多

三. 文末

放一点福利吧

统计了下看过人数最多的和评分高的,前20部电影

没看过这些电影的抽空赶快去补补吧

评论