世界杯:用Python分析热门夺冠球队

火热的世界杯即将拉开序幕。在比赛开始之前,我们不妨用 Python 来对参赛队伍的实力情况进行分析,并大胆的预测下本届世界杯的夺冠热门球队。

通过数据分析,可以发现很多有趣的结果,比如:

  • 找出哪些队伍是首次进入世界杯的黑马队伍
  • 找出2018年32强中之前已经进入过世界杯,但在世界杯上没有赢得过一场比赛的队伍

当然,我们本次的主要任务是要通过数据分析来预测2018年世界杯的夺冠热门队伍。

本次分析的数据来源于 Kaggle, 包含从 1872 年到今年的数据,包括世界杯比赛、世界杯预选赛、亚洲杯、欧洲杯、国家之间的友谊赛等比赛,一共大约 40000 场比赛的情况。

本次的环境为

  • window 7 系统
  • python 3.6
  • Jupyter Notebook
  • pandas version 0.22.0

先来看看数据的情况:

import pandas as pd
import matplotlib.pyplot as plt%matplotlib inline
plt.style.use('ggplot')df = pd.read_csv('results.csv')
df.head()

该数据集包含的数据列的信息如下:

  • 日期
  • 主队名称
  • 客队名称
  • 主队进球数 (不含点球)
  • 客队进球数 (不含点球)
  • 比赛的类型
  • 比赛所在城市
  • 比赛所在国家
  • 是否中立

结果如下:

1、 获取所有世界杯比赛的数据(不含预选赛)

df_FIFA_all = df[df['tournament'].str.contains('FIFA', regex=True)]
df_FIFA = df_FIFA_all[df_FIFA_all['tournament']=='FIFA World Cup']
df_FIFA.head()

结果如下:

数据做一个初步整理

df_FIFA.loc[:,'date'] = pd.to_datetime(df_FIFA.loc[:,'date'])
df_FIFA['year'] = df_FIFA['date'].dt.year
df_FIFA['diff_score'] = df_FIFA['home_score']-df_FIFA['away_score']
df_FIFA['win_team'] = ''
df_FIFA['diff_score'] = pd.to_numeric(df_FIFA['diff_score'])

创建一个新的列数据,包含获胜队伍的信息

# The first method to get the winnersdf_FIFA.loc[df_FIFA['diff_score']> 0, 'win_team'] = df_FIFA.loc[df_FIFA['diff_score']> 0, 'home_team']
df_FIFA.loc[df_FIFA['diff_score']< 0, 'win_team'] = df_FIFA.loc[df_FIFA['diff_score']< 0, 'away_team']
df_FIFA.loc[df_FIFA['diff_score']== 0, 'win_team'] = 'Draw'df_FIFA.head()# The second method to get the winnersdef find_win_team(df):winners = []for i, row in df.iterrows():if row['home_score'] > row['away_score']:winners.append(row['home_team'])elif row['home_score'] < row['away_score']:winners.append(row['away_team'])else:winners.append('Draw')return winnersdf_FIFA['winner'] = find_win_team(df_FIFA)
df_FIFA.head()

结果如下:

2、 获取世界杯所有比赛的前20强数据情况

2.1 获取世界杯所有比赛获胜场数最多的前20强数据

s = df_FIFA.groupby('win_team')['win_team'].count()
s.sort_values(ascending=False, inplace=True)
s.drop(labels=['Draw'], inplace=True)

用pandas可视化如下:

柱状图

s.head(20).plot(kind='bar', figsize=(10,6), title='Top 20 Winners of World Cup')

水平柱状图

s.sort_values(ascending=True,inplace=True)
s.tail(20).plot(kind='barh', figsize=(10,6), title='Top 20 Winners of World Cup')

饼图

s_percentage = s/s.sum()
s_percentage
s_percentage.tail(20).plot(kind='pie', figsize=(10,10), autopct='%.1f%%',startangle=173, title='Top 20 Winners of World Cup', label='')

分析结论1: 从赢球场数来看,巴西、德国、意大利、阿根廷四支球队实力最强。

通过上面的分析,我们还可以来查看部分国家的获胜情况

s.get('China', default = 'NA')
s.get('Japan', default = 'NA')
s.get('Korea DPR', default = 'NA')
s.get('Korea Republic', default = 'NA')
s.get('Egypt', default = 'NA')

运行结果分别是 ‘NA’,4,1,5,‘NA’。

从结果来看,中国队,在2022卡塔尔世界杯比赛上(不含预选赛)还没有赢过。当然,本次世界杯的黑马-埃及队,之前两度进入世界杯上,但也没有赢过~~

上面分析的是赢球场数的情况,下面我们来看下进球总数情况。

2.2 各个国家队进球总数量情况

df_score_home = df_FIFA[['home_team', 'home_score']]
column_update = ['team', 'score']
df_score_home.columns = column_update
df_score_away = df_FIFA[['away_team', 'away_score']]
df_score_away.columns = column_update
df_score = pd.concat([df_score_home,df_score_away], ignore_index=True)
s_score = df_score.groupby('team')['score'].sum()
s_score.sort_values(ascending=False, inplace=True)
s_score.sort_values(ascending=True, inplace=True)
s_score.tail(20).plot(kind='barh', figsize=(10,6), title='Top 20 in Total Scores of World Cup')

分析结论2: 从进球总数量来看,德国、巴西、阿根廷、意大利四支球实力最强。

上面分析的是自1872年以来的所有球队的数据情况,下面,我们重点来分析下2018年世界杯32强的数据情况。

3、2018年世界杯32强分析

2018年世界杯的分组情况如下:

第一组:俄罗斯、德国、巴西、葡萄牙、阿根廷、比利时、波兰、法国

第二组:西班牙、秘鲁、瑞士、英格兰、哥伦比亚、墨西哥、乌拉圭、克罗地亚

第三组:丹麦、冰岛、哥斯达黎加、瑞典、突尼斯、埃及、塞内加尔、伊朗

第四组:塞尔维亚、尼日利亚、澳大利亚、日本、摩洛哥、巴拿马、韩国、沙特阿拉伯

获取32强的所有数据

首先,判断是否有队伍首次打入世界杯。

team_list = ['Russia', 'Germany', 'Brazil', 'Portugal', 'Argentina', 'Belgium', 'Poland', 'France','Spain', 'Peru', 'Switzerland', 'England', 'Colombia', 'Mexico', 'Uruguay', 'Croatia','Denmark', 'Iceland', 'Costa Rica', 'Sweden', 'Tunisia', 'Egypt', 'Senegal', 'Iran','Serbia', 'Nigeria', 'Australia', 'Japan', 'Morocco', 'Panama', 'Korea Republic', 'Saudi Arabia']
for item in team_list:if item not in s_score.index:print(item)out:
Iceland
Panama

通过上述分析可知,冰岛队和巴拿马队是首次打入世界杯的。

由于冰岛队和巴拿马队是首次进入世界杯,所以这里的32强数据,事实上是没有这两支队伍的历史数据的。

df_top32 = df_FIFA[(df_FIFA['home_team'].isin(team_list))&(df_FIFA['away_team'].isin(team_list))]

3.1 自1872年以来,32强数据情况

赢球场数情况

s_32 = df_top32.groupby('win_team')['win_team'].count()
s_32.sort_values(ascending=False, inplace=True)
s_32.drop(labels=['Draw'], inplace=True)
s_32.sort_values(ascending=True,inplace=True)
s_32.plot(kind='barh', figsize=(8,12), title='Top 32 of World Cup since year 1872')

进球数据情况

df_score_home_32 = df_top32[['home_team', 'home_score']]
column_update = ['team', 'score']
df_score_home_32.columns = column_update
df_score_away_32 = df_top32[['away_team', 'away_score']]
df_score_away_32.columns = column_update
df_score_32 = pd.concat([df_score_home_32,df_score_away_32], ignore_index=True)
s_score_32 = df_score_32.groupby('team')['score'].sum()
s_score_32.sort_values(ascending=False, inplace=True)
s_score_32.sort_values(ascending=True, inplace=True)
s_score_32.plot(kind='barh', figsize=(8,12), title='Top 32 in Total Scores of World Cup since year 1872')

分析结论3: 自1872年以来,32强之间的世界杯比赛,从赢球场数和进球数量来看,德国、巴西、阿根廷三支球队实力最强。

自1872年到现在,已经有100多年,时间跨度较大,有些国家已发生重大变化,后续分别分析自1978年(近10届)以及2002年(近4届)以来的比赛情况。

程序代码是类似的,这里只显示可视化的结果。

3.2 自1978年以来,32强数据情况

赢球场数情况

进球数据情况

分析结论4: 自1978年以来,32强之间的世界杯比赛,从赢球场数来看,阿根廷、德国、巴西三支球队实力最强。从进球数量来看,前3强也是这三支球队,但德国队的数据优势更明显。

3.3 自2002年以来,32强数据情况

赢球场数情况

进球数据情况

分析结论5: 自2002年以来,32强之间的世界杯比赛,从赢球场数和进球数量来看,德国、阿根廷、巴西三支球队实力最强。其中,德国队的数据优势更明显。

4、综合结论

2018年世界杯的32支队伍,根据以往的世界杯比赛数据来看,预测前三强为 德国、阿根廷和巴西,其中德国队应该是夺冠的最大热门。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/19963.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI正在杀死创业公司?

图片来源&#xff1a;由无界AI生成 作者&#xff5c;李晗 朱悦 谁也无法想到&#xff0c;在这一轮AIGC浪潮中&#xff0c;一些AI公司还没来得及颠覆行业&#xff0c;自己却快被颠覆了。 7月12日&#xff0c;美国AIGC独角兽Jasper联合创始人Dave Rogenmoser在职场社交网站Linked…

重磅!谷歌面试官亲自分享:Google面试技巧

关注上方“深度学习技术前沿”&#xff0c;选择“星标公众号”&#xff0c; 资源干货&#xff0c;第一时间送达&#xff01; 本文转载自&#xff1a;图灵TOPIA | 编译&#xff1a;安然 作者&#xff1a;Pablo Samuel Castro Pablo Samuel Castro是谷歌Brain的一名高级研究员&…

开奶茶店,哪里学奶茶的制作配方?

奶茶目前在国内的饮品市场上可谓是独占鳌头&#xff0c;由于其口味香浓&#xff0c;外表时尚&#xff0c;所以深受广大青年人、小孩们的喜爱。 随着社会的不断快速发展&#xff0c;越来越多的人开起了奶茶店创业&#xff0c;然而每天开奶茶店的人都在不断增加&#xff0c;那么&…

奶茶店一天盈利有多少?广州哪里有专业奶茶培训点

很多人都知道奶茶行业利润很高&#xff0c;但是又不了解具体的数字。想拥有一个属于自家的奶茶店的你一定很关心奶茶店的成本和收益&#xff0c;比如&#xff1a;奶茶店一天的盈利有多少&#xff0c;广州哪里有专业奶茶培训点&#xff1f;下面跟随埃德珈一起来看看。 现在在大街…

基于django奶茶店管理系统

1&#xff0c;项目功能&#xff1a; &#xff08;1&#xff09;采购单创建&#xff1a;该模块可以实现通过添加采购信息&#xff0c;并把采购信息录入数据库。 &#xff08;2&#xff09;采购单查看&#xff1a;该模块实现采购单的查看&#xff0c;查看采购的详细信息。 &am…

中顶奶茶店管理系统

中顶奶茶店管理系统功能强大&#xff0c;可以满足奶茶店的日常经营需求&#xff0c;为店里大大的减少了管理方面的压力&#xff0c;系统操作方便&#xff0c;支持全键盘操作的POS点单模式&#xff0c;也支持触摸屏点单模式&#xff0c;使操作者更加方便的进行销售管理&#xff…

数字化门店| 奶茶店智慧管理系统

奶茶如今已经成为年轻女性的常饮品&#xff0c;比如蜜雪冰城、奈雪的茶之类的品牌线下门店&#xff0c;门店量的庞大覆盖&#xff0c;使得每天都是人来人往&#xff0c;但碰上优惠活动日或节假日&#xff0c;很多人需要排很长的队才能买到&#xff0c;同时在店内坐的消费者如果…

奶茶果茶饮品店数字化转型| 奶茶店小程序 | 餐饮外卖系统

奶茶/果茶/饮品店里总是容易聚集大量年轻消费者&#xff0c;尤其品牌开新店或搞促销&#xff0c;往往会排很长的队伍&#xff0c;而茶饮店也会根据季节推出相应的新品或冷热饮品&#xff0c;以保证消费者在任何时候都能喝到应季的饮品。 年轻人是奶茶饮品店的主要消费者&#x…

微信小程序奶茶店在线点单管理系统

面对目前奶茶店林立的现状&#xff0c;大城市奶茶店多为连锁奶茶店他们都有统一的管理和相应的系统。但是个别小县城和小城以及城区也有不少的奶茶店多为自营&#xff0c;这就必须店长自己管理和采购原料。大型连锁的奶茶店管理系统就不适用于分散的小型奶茶店。小型奶茶店的管…

喝不起奶茶,咱就为奶茶店开发个会员积分收银系统

作者主页&#xff1a;编程指南针 简介&#xff1a;Java领域优质创作者、CSDN博客专家 Java项目、简历模板、学习资料、面试题库、技术互助 文末获取源码 项目编号&#xff1a;BS-XX-011 本系统基于SSM框架开发实现&#xff0c;前端使用easyui开发实现&#xff0c;功能强大&am…

商汤回应AI作图争议/ 推特公司不存在了/ 巴菲特:不确定ChatGPT是否有益…今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好&#xff0c;今天是4月13日&#xff0c;好久不见&#xff0c;准备疯狂星期四了吗&#xff1f; 听说今天沙尘暴又来了&#xff0c;Be Like&#xff1a;&#xff08;by Midjourney&#xff09; 今天科技圈有哪些新鲜事儿&#xf…

如何让ChatGPT制作XMind思维导图

一、使用ChatGPT辅助生成内容 给大家一个思路&#xff0c;比如我想制作《股神巴菲特给儿女的一生忠告》相关的思维导图&#xff0c;那我们可以在ChatGPT上提问“请使用markdown格式写出股神巴菲特给儿女的一生忠告的思维导图&#xff0c;以代码格式输出”。 生成后&#xff0…

chatgpt赋能python:Python怎么打包成APP

Python怎么打包成APP 如果你想将你的Python程序打包成APP并分享给其他人&#xff0c;或者想将其发布到应用商店&#xff0c;那么这篇文章就是为你准备的。 介绍 首先&#xff0c;我们来介绍一些Python打包工具。有很多工具可供选择&#xff0c;这里列出了几个&#xff1a; …

数字时代,你想成为一只“弱鸡”,还是一个“超级个体”?

电话延伸了人类的耳朵&#xff0c;屏幕延伸了人类的眼睛&#xff0c;汽车这样的交通工具延伸了人类的腿脚&#xff0c;人类的生存能力开始变得和技术相关&#xff0c;而这个趋势仍在加剧。 如今&#xff0c;Web3延伸了人的综合体验&#xff0c;AI延伸了人类的大脑&#xff0c;它…

最新研究:游戏科技已成为人工智能创新发展的重要驱动力

来源&#xff1a;腾云 4月25日&#xff0c;中国科学院虚拟经济与数据科学研究中心、中国科学院大数据挖掘与知识管理重点实验室在京联合举办《探寻AI创新之路——游戏科技与人工智能创新发展报告》发布暨研讨会。 人工智能是21世纪对人类社会影响最为深远的科技领域之一。报告认…

《探寻AI创新之路——游戏科技与人工智能创新发展报告》正式发布

近日&#xff0c;中国科学院虚拟经济与数据科学研究中心、中国科学院大数据挖掘与知识管理重点实验室在京联合举办《探寻AI创新之路——游戏科技与人工智能创新发展报告》发布暨研讨会。 报告下载地址&#xff1a;http://www.feds.ac.cn/index.php/zh-cn/2020-04-13-04-45-08/2…

消费电子景气回升 云计算前景喜人,伟仕佳杰步入新一轮盈利周期

数字化转型的大趋势&#xff0c;催使许多IT分销商加速向技术附加值更高的云计算领域上探。3月23日&#xff0c;伟仕佳杰控股有限公司&#xff08;00856.HK&#xff0c;下称“伟仕佳杰”&#xff09;公布2022年度业绩&#xff0c;从数据来看&#xff0c;以IT分销起家的伟仕佳杰&…

上海亚商投顾:三大指数小幅上涨算力概念股全线爆发

上海亚商投顾前言&#xff1a;无惧大盘涨跌&#xff0c;解密龙虎榜资金&#xff0c;跟踪一线游资和机构资金动向&#xff0c;识别短期热点和强势个股。 市场情绪 三大指数今日冲高回落&#xff0c;收盘均小幅上涨&#xff0c;深成指走势较强。算力、云服务全线爆发&#xff0c;…

Notion AI,又一款强大的内容生成工具?

文|Juny 编辑| VickyXiao 去年11月底&#xff0c;当ChatGPT横空出世、惊艳亮相的时候&#xff0c;很多人可能并不知道&#xff0c;当时在硅谷另一个角落&#xff0c;百亿生产力软件独角兽Notion也悄悄上线了其AI服务&#xff0c;并向用户开放了预约。 最近几个月&#xff0c;…

精通ChatGPT等大模型,掌握最前沿技术,这有份绝佳资源

视学算法专栏 机器之心编辑部 各种 AI 技术铺天盖地的来袭&#xff0c;招架不住&#xff1f;这儿有一个名为 EgoAlpha 的 AI 社区&#xff0c;其涵盖大模型技术追踪、最前沿的国际发展动态、最新的上下文学习与提示工程的学习资源等&#xff0c;该社区致力于探索 AI 感知、认知…