2018年俄罗斯世界杯赛程表完整版介绍谁最有可能夺冠

2018年俄罗斯世界杯即将开始,斯世界杯即将开始。对于球迷来说,每届世界杯,除了球员精湛的技术,还有对夺冠球队的预测。最近,多特蒙德工业大学(Technische Universitt Dortmund)的Andreas Groll根特大学教授(Ghent University)的Christophe Ley教授、Hans Van Eetvelde教授,慕尼黑理工大学(Technical University of Munich)的Gunther Schauberger教授比较了一些足球比赛得分的建模方法,并使用了一种基于随机(决策)森林的建模方法,使用了国际足联排名、平均年龄和冠军联赛球员数量、国家人口比率、国内生产总值,甚至教练的国籍,预测2018年世界杯足球赛。

在这项研究中,我们根据2002年至2014年的四次国际足球联盟世界杯,比较了三种不同的足球比赛得分建模方法(FIFA World Cups)比赛中的所有预测性表现:泊松回归模型(Poisson regression models),随机森林(random forests)和排名方法(ranking methods)。前两种方法是基于团队的协变量信息,后种方法估计了足够的能力参数,反映了当前团队的最佳实力。前两种方法是基于团队的协变量信息,后者估计了足够的能力参数,反映了当前团队的最佳实力。在这种比较中,训练数据中最好的预测方法是排名方法和随机森林。然而,我们表明,我们可以通过将随机森林与排名方法的团队能力参数结合起来,大大提高预测能力。最后,我们选择这种方法的组合作为最终模型。据估计,2018年世界杯将被反复模拟,所有球队都有获胜的概率。与卫冕冠军德国相比,该模型略偏向于支持西班牙。此外,我们还提供了所有球队在所有锦标赛阶段的生存概率和最有可能的结果。

就像2014年世界杯一样,即将到来的俄罗斯世界杯也吸引了几位建模师的注意,他们试图预测冠军。在过去的欧洲锦标赛(欧洲杯)和国际足联世界杯上,有一种合理的方法,这种方法是基于赌注注册经纪人(bookmakers)预期信息中包含的概率(Leitner、Zeileis和Hornik于2010年、Zeileis、Leitner和Hornik2012年、2014年、2016年提出)。现在,赌注登记经纪人在锦标赛开始前为赢家提供赌注。现在,对于这样一个重要的活动,赌注注册经纪人在锦标赛开始前为获胜者提供赌注。通过总结几个在线赌注注册经纪人的获胜概率,并将其转化为获胜概率,反向锦标赛模拟可以用来计算特定于团队的能力。请参考这一点Leitner、Zeileis和Hornik论文(2010年提出)。凭借球队独特的能力,所有单场比赛都可以通过配对比较进行模拟,从而获得完整的锦标赛课程。Zeileis、Leitner和Hornik预计巴西将于2018年16日预测.赢得2018年世界杯的概率为6%,其次是德国(15.8%和西班牙(12).5%)。

瑞士银行也有同样的三支球队UBS一组专家被确定为最受欢迎的球员,但概率和顺序不同(Audran、Bolliger、Kolb、Mariscal和Pilloud,2018年):他们赢得了德国最受欢迎的球员,获胜概率为24.0%,其次是巴西(19.8%和西班牙(16).1%)。他们使用基于四个因素的统计模型,这将显示球队在比赛中的表现:Elo得分,球队在世界杯前资格赛中的表现,球队在前几届世界杯锦标赛中的表现和家庭优势。该模型使用前五场比赛的结果进行校准,蒙特卡罗模拟1万次(Monte Carlo simulations)确定所有球队获胜的概率。

图2:条形图显示,应用于FIFA变量在世界杯2002-2014年随机森林中的重要性,得分作为响应变量,论文第二部分描述的变量作为预测变量。

另一个有价值的模型类别被证明在预测之前的国际足球锦标赛(如欧洲杯或世界杯)结果中,是泊松回归模型,它直接建模了两支竞争球队在一场比赛中的进球。设在i和j在球队之间的比赛中,Xi j和Yi j分别表示第一和第二队的目标,其中i,j∈{1..,n},n代表锦标赛球队总数。假设Xi jPo(λij)和Yi jPo(μij),其中λij和μij表示相应泊松分布的强度参数(即预期目标数)。对于这些强度参数,有几种建模策略,它们以不同的方式包括竞争团队的能力或协变量。

泊松分布在最简单的情况下被认为是独立的,主要取决于团队的能力或协变量。例如,Dyte和Clarke(2000年)将这个模型应用到国际足联世界杯的数据中,让两支球队的泊松强度取决于他们的国际足联排名。Groll和Abedieh(2013年)Groll、Schauberger和Tutz(2015年)欧洲杯和世界杯数据分别考虑了一组潜在的有影响力的变量,并使用L1.检测相关协变量稀疏集的惩罚方法。基于此,2012年欧洲杯和2014年FIFA预测世界杯。这些方法表明,当许多协变量和/或单变量的预测能力事先不明确时,正则化估计方法可能是有益的。

许多研究人员已经放宽了对条件独立性的强烈假设,并引入了不同的可能性来考虑依赖分数。Dixon和Coles(1997年)首先确定了得分之间(轻微负)的相关性。因此,它们引入了额外的依赖参数。然而,他们忽略了模型中的强度参数,包括两个团队本身的能力(或协变)。因此,尽管以能力为条件,泊松分布被假定为独立的,但它们是边际相关的。Karlis和Ntzoufras(2003年)提出双变量泊松分布(bivariate Poisson distribution)建模两个团队的得分,可以解释得分之间的(正)相关性。虽然双变量泊松分布只能解释正相关性,但基于copula模型也允许负相关性(可见McHale和Scarf于2007年、McHale和Scarf于2011年或Boshnakov、Kharrat和McHale2017年提出的观点)。

图3:根据FIFA根据世界杯的10000次模拟运行和ODDSET获胜的概率是所有32支球队进入2018年世界杯足球赛不同阶段的预测概率。

但关于双变量泊松的案例,Groll、Kneib、Mayr和Schauberger(2018年)提供了一些证据,如果两个竞争团队的高信息量协变量包含在两个(条件)独立泊松分布的强度中,则可以适当建模比赛分数的依赖结构。它们包括欧洲杯数据的一大组协变量,并使用提升算法(boosting approach)选择预测2016年欧洲杯的稀疏模型。由于双变量泊松分布的依赖性参数从未被提升算法更新,因此有两种独立泊松分布就足够了。

基于泊松的足球队排名方法与基于协变量的泊松回归模型密切相关。主要思想是找到足够的能力参数来反映当前团队的最佳实力。基于一组比赛,然后通过最大的似然法(maximum likelihood)估计这些参数。Ley、Van de Wiele和Van Eetvelde(2018年)研究了各种泊松模型,并对其预测性能进行了比较。由此产生的最佳模型是独立泊松模型和Karlis和Ntzoufras最简单的双变量泊松分布(2003年提出)。有趣的是,Ley等人(于2018年)发现,这些模型在国内联赛和国家队比赛中的表现都优于对手。这些基于统计的排名为国际足联的排名提供了有趣的选择。

基于随机(决策)森林的建模方法完全不同(random (decision) forests),这是一种由Breiman(于2001年)提出的用于分类、回归和其他任务的集成学习方法。该方法起源于机器学习和数据挖掘社区,首先通过在训练数据上建立大量所谓的决策树进行操作。然后,单测模式(分类)或平均预测值(回归)总结单树的预测结果。因此,与常规决策树相比,随机森林减少了过度拟合的趋势和方差,因此,它是常用的强大预测工具。在Schauberger和Groll(2018年)在初步研究中,包括2002年在内的不同类型的随机森林和传统计数据回归方法(如上述泊松模型) – 2014年FIFA世界杯所有比赛的数据都比较了预测性能。事实证明,随机森林提供了非常令人满意的结果,通常优于回归方法。此外,他们的预测要么接近甚至超过赌注注册经纪人作为自然基准的表现。这些结果鼓励我们在目前的研究中使用随机森林来计算即将到来的2018年FIFA预测世界杯。然而,我们将证明,如果我们能够充分估计反映国家队当前实力的团队能力参数,并将其作为额外的协变量,可以进一步提高随机森林现有的优秀预测能力。