0371-63319761
您的当前位置:主页 > 安全研究 > 行业新闻 >

又一个 AI 预测世界杯冠军是「德国」

时间:2018-06-14


研究人员在模拟整个比赛10万次后预测了结果。

 

2018年世界杯明天就要在俄罗斯拉开帷幕了,这可能是有史以来观看人数最多的体育赛事之一,比奥运会还要受欢迎。所以,可能获胜的球队自然万众瞩目。

 

想评估可能的结果,一个办法就是看博彩公司的赔率。这些公司利用专业的统计人员来分析庞大的结果数据库,对任何可能出现的比赛的不同结果的概率进行了量化。这样一来,博彩公司可以对未来几周内开打的所有比赛给出赔率,并对可能获胜的球队给出赔率。

 

一种更准确的估计方法是梳理许多不同博彩公司给出的赔率。这种方法表明,巴西队显然是夺得2018年世界杯的热门球队,概率为16.6%,其次是德国队(12.8%)和西班牙队(12.5%)。

 

但近些年来,研究人员开发出了机器学习技术,有望比传统的统计方法更胜一筹。这些新技术预测2018年世界杯可能会花落谁家?

 

一个答案来自德国多特蒙德工业大学的安德烈亚斯•格罗尔(Andreas Groll)及其几位同事开展的工作。这些研究人员结合使用机器学习、常规统计学以及随机森林方法,以识别最有可能获胜的球队。

 

先介绍一下背景知识。随机森林技术近年来才出现,这种强大的方法可以分析庞大数据集,同时避免其他数据挖掘方法的一些缺陷。它基于这个想法:某个未来事件可以由决策树(decision tree)来确定,在决策树的每个分支上通过参考一组训练数据来计算结果。

 

然而,决策树存在一个众所周知的问题。在分支过程的后期阶段,决策可能因非常稀疏、在这种解析度下容易出现巨大差异的训练数据而严重扭曲,这个问题就叫过拟合(overfitting)。

 

随机森林方法不一样。其过程不是在每个分支计算结果,而是计算随机分支的结果。而且它多次这么做,每次用一组不同的随机选择的分支。最终结果是所有这些随机构建的决策树的平均值。

 

这个方法具有显著的优点。首先,它不存在困扰普通决策树的同样的过拟合问题。它还揭示了哪些因素对于确定结果很重要。

 

所以,如果某个特定的决策树含有许多参数,很容易看出哪些参数对结果有最大的影响、哪些不是。这些不太重要的因素将来就可以忽略。

 

格罗尔及其同事正是使用这种方法来模拟预测2018年世界杯。他们对球队可能参加的每场比赛的结果进行建模,利用结果来编制最有可能的赛程。

 

格罗尔及其同事先确定可能决定结果的众多潜在因素。这些因素包括经济因素(比如某国的国内生产总值和总人口)、国际足球联合会的国家队排名,以及各支球队本身的属性(比如它们的平均年龄、多少球员在欧冠联赛踢球、是否拥有主场优势等)。

 

值得关注的是,随机森林方法让格罗尔及其同事得以加入其他排名信息,比如博彩公司使用的排名。

 

将所有这些信息添加到模型后得出了一些有意思的结果。比如说,结果发现最有影响力的因素是其他方法得到的球队排名,包括博彩公司、国际足联联合会及其他机构的排名。

 

其他的重要因素包括国内生产总值和球队中在欧冠联赛踢球的人数。不太重要的因素包括国家总人口和教练国籍等。

 

通过这个过程得出的预测在几个方面与其他预测大不一样。首先,随机森林方法将西班牙队选为最有可能获胜的球队,概率为17.8%。

 

然而,这种预测的一大因素是世界杯比赛的结构本身。如果德国队闯过比赛的小组阶段,更有可能在16强淘汰赛阶段面临强敌。正因为如此,随机森林方法计算德国队闯入四分之一决赛的概率为58%。相比之下,西班牙队在最终的16强中不太可能遇到强敌,因而进入四分之一决赛的概率为73%。

 

如果这两支球队都进入了四分之一决赛,它们获胜的机率大致相等。格罗尔及其同事说:“西班牙队的赢面比德国队略大一点,这主要是由于德国队在16强中淘汰出局的概率比较高。”

 

不过有另外一个变数。随机树过程让他们得以模拟整个比赛,这得出了不同的结果。

 

格罗尔及其同事模拟了整个比赛10万次。他们说:“按照可能性最大的赛程来看,夺得世界杯冠军的将是德国队,而不是西班牙队。”

 

当然,由于比赛的对阵排列非常多,上图这个赛程出现的可能性仍然极小。格罗尔及其同事认为概率是1/100000。

 

现在你大概有数了。据格罗尔及其同事声称,比赛一开始,西班牙队赢球的机会最大。但是如果德国队进入四分之一决赛,那么它将成为冠军最大热门。

 

比赛周四开打,到时东道主俄罗斯队对阵沙特阿拉伯队。令人遗憾的是,这两支球队似乎连四分之一决赛可能都进不了。
 

Copyright © 2017-2024 河南中瀚安全技术有限公司 版权所有 豫ICP备18011434号-1 豫公网安备 41019702002746号