西班牙、英格兰连续两场失利,小组赛即遭淘汰,不仅让一些球迷伤心欲绝,让彩民损失不小,还顺便连累了众多预测世界杯的高人欲哭无泪。
这届世界杯在大数据火爆之后,不管是民间还是官方,都把大数据的概念运用到了世界杯预测上,但这些预测真的准吗?下面选取国内外主要的八种世界杯预测,对他们的预测方法进行简要的分析,看看谁的更准一些。
百度分析最传统
据验证,今年全国高考作文题目18卷中12卷的作文方向被百度大数据预测命中,被戏称“神预测”。因此,这次百度收集网上的综合数据,然后进行整理、分析,最终通过大规模机器学习等人工智能技术,开始预测世界杯。
百度大数据研究院利用百度大数据全面搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中,构建了本次“世界杯预测”产品的足球赛事预测模型。该模型共涉及到19972名球员和1.12亿条相关数据,所参考的数据包括百度搜索数据、球队基础数据、球员基础数据、赔率市场数据等,所分析的球队不仅包括207支国家队,还囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。
评:百度用的是传统的统计分析,注重近期球队和球员表现,这种预测是至今为止在技术上最稳定的方法,但受意外因素(如天气、伤病、裁判等)影响较大。到现在为止,百度成功预测对了智利的黑马本色,却遗漏了哥斯达黎加。
德银推算最胡闹
德银根据各个球队的FIFA排名、历史战绩、球员构成和赌场赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格,从夺冠概率表格中挑选出了前10强,依据“轮流转周期”,由此排除了2014年巴西、意大利和西班牙夺冠的可能性,然后根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。最后,本届英格兰队有6名队员来自利物浦,而正是在利物浦的球员最多的1966年,英格兰获得了历史上唯一一次世界杯冠军。同时,德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。
评:还好,德银报告主笔不是中国队的球迷!
高盛模型最神秘
高盛对世界杯决赛周32支国家队的胜算,有它自己的一套评估方法(命名Elo),在所有因素中分量最重。Elo是高盛自设的动态系统,不断根据球队近绩更新评分和排名。
为此,分析师要收集来多项数据,包括:世界各个国家足球队历史成绩数据库给出的各队排名得分;比赛中双方球队过去10场和5场比赛的进球数;比赛双方是不是巴西主场;比赛球队是不是美洲球队;还有以往各队在世界杯的进球数优于平时多少个。最后,他们把这几项数据按照一定的权重相加到一起,可以得出每一个球队在对阵另外某一个球队时平均会进多少个球。按照这样的方式,从小组赛一路到最后决赛,每一场比赛双方的进球数都可以期望一番,最后获得一个“最平均”的世界杯全程模拟结果。
评:投行一贯的神秘模型来忽悠投资者,Elo模型就是高深黑洞,关键环节恕不奉告,至于准确与否,只有神知道。
严格的讲,以上几家的世界杯预测都不能算“大数据分析”,只是传统的统计分析,虽然数据“大”,但并未融合多种因素综合考虑,可见在专业领域还是相信经典理论。
霍金想法最娱乐
霍金收集了大量的数据,包括历史记录、温度、球场的海拔高度等,把所有数据都集中起来,分析你事先不知道的事情,或许能发现一些规律。它的原理不是传统的分析,更多的是基于关系的一种预测。霍金19页的分析结果是关于如何提高英格兰队的夺冠几率,但最后却抛出一个让英格兰球迷伤心的终极结论:个人更看好巴西队夺冠。霍金认为英格兰队首先需要在海拔500米以下的球场比赛,气温的提升会降低赢球可能,在巴西当地时间15时是最好的比赛时间。从球队自身来说,433阵型无疑是夺冠的节奏,而且必须穿上红色战袍。提到点球大战,霍金认为助跑必须不少于三步,如果速度上不去,进球几率只有58%。瞄准上角的点球有84%的命中率,金发和秃头的球员射中的概率达到更高的84%,前锋的进球概率超过80%,中场与后卫递减。
评:霍金老爷爷最近几年很喜欢预测,还预测过世界将在两百年之后灭亡,这次娱乐世界杯一下,也算是比黑洞要沾地气。如果预测对了,建议用这个理由把早就该属于霍金的诺贝尔奖发了吧。
科隆体育最繁琐
德国科隆体育学院根据复杂的计算机模拟测算得出的本届世界杯预测结果:科隆体育学院的格罗尔教授领导研究小组以自己设计的计算机模拟算式一共进行了10万次测算,综合考虑各队的世界排名、足彩赔率、市值、预选赛表现,还包括可能的伤病、战术、气候条件、主场优势因素。他们预测,巴西队与阿根廷队将争冠,卫冕冠军西班牙有可能止步小组赛,从西荷大战那个惊悚的5比1赛果,看来德国人的模拟测算还有靠谱的。
评:德国人的严谨是出了名的,而且竟然没有预测德国夺冠,对于西班牙却一语中的,估计他们现在都在祈祷决赛的预测是错误的,否则作为物理学家的默克尔总理不会答应。
熊猫预测夭折了
世界杯开幕前,据媒体报道,中国保护大熊猫研究中心称将派出一到两岁的熊猫宝宝来预测世界杯。小组赛阶段,主办方会拿出三个竹筐代表主队的胜平负,熊猫宝宝则通过选择哪个筐里的食物来预测比赛结果。等到了淘汰赛,熊猫宝宝们还会通过爬树和赛跑来预测结果。前者是让熊猫爬上挂有一方球队国旗的树木来预测,后者则是两个熊猫宝宝分别穿上两队球衣,通过谁先跑到目的地来预测比赛结果。就在世界杯开赛之后,“熊猫预测世界杯”活动已经被取消。评:本来要顶替章鱼保罗的国宝没了用武之地,国人还是缺乏点娱乐精神,借此机会宣传下大熊猫,有何不可,万一要是预测对了,那大熊猫基地岂不成了大师圣地,还愁旅游不火?
微软相信EXCEL
微软必应大数据之前曾多次成功预测奥斯卡奖项、投票大选。微软的预测考虑过往比赛历史、主场客场、地理位置、草坪状况、天气以及“群众智慧”等等多种因素,还使用大量的公开数据——博彩市场、民意调查、社交媒体以及其它在线数据,利用大数据分析来判断每场比赛的结果。据说这一切都是用EXCEL来完成的,我们权当其是软件推广策划吧。
微软:相信EXCEL是万能的,但预测足球估计是万万不能的,不过,人家说奥斯卡、大选都预测对了,还是看结果吧。
雅虎相信网络流言
雅虎用轻博客网站Tumblr的数据来估计每支国家队的优势,最终计算出最可能获胜的是巴西。雅虎研究小组分析的前提是,Tumblr上所有有关世界杯的讨论都具有一定价值。为了查明哪些国家将相互较量,小组会根据之前比赛的结果为每支队伍赋予优势值。针对每一次比赛,雅虎会利用名为泊松分布不同参数的概率论来估计每一支队伍可能的进球数量。
评:雅虎相信的是目前最火的社交网络数据,据说可以预测传染病和犯罪现场,不知道对足球是否有效?
(据说美女主持穿什么球衣,什么球队就输球,而美女的球衣选择是靠网民投票出来的,所以,也证明了冷门太多)
当然,虽然很多人相信大数据能够帮助我们预测世界杯,也有不可预测派。美国的洛斯·阿拉莫斯国家实验室的三位统计物理学家曾经对大型体育比赛的赛况进行数据化分析,发现在棒球、曲棍球、篮球、橄榄球以及足球五大项目中,足球比赛是其中最具悬念,赛果最具不确定性的,弱旅战胜强队的概率居高不下,即使使用科学方法也未能得到准确的预测。
说实话,作为统计专业人士,对足球预测不敢太相信,体育比赛确实可以预测,足球也不例外,但足球项目影响因素太多,特别是世界杯足球比赛相对场次不多、间隔周期太长,致使数据量很小,比赛中又有太多的主观因素(比如裁判),有时候这种比赛的预测和算命没什么差别。
如果要问为何总有人预测正确?正如一家报纸所说,每届世界杯都会有无数的“保罗”,大部分都在前几次猜测失败后从媒体视线中消失。贝利也不是真正的乌鸦嘴,只不过他预测成功的时候没有后续报道。预测大师都是这样练成的!