在索尼准备推出PS5的时候,微软绞尽脑汁想办法在下一款游戏机的名称中加入字母"X",现在是回顾第八代视频游戏机的好时机,我们来尝试使用假设检验判断哪一款游戏机,可以说是"最好的"。
索尼在2013年推出的PS4销量超过了1.1亿台(XBox One在同一时间段内的销量令人失望,达到了4700万台,而Switch在2017年发布后的销量也达到了5500万台)。当然,这些统计数据对消费者的影响很小,我们只能假设,消费者对游戏机的商业性能的关注程度,不如他们对游戏质量的关注。但我们如何判断游戏的质量呢?正如这句话所说:萝卜青菜,各有所爱。
克服主观性是本篇文章的主旨。特别是我们将依靠游戏的"元临界分数"来衡量游戏的"内在质量"。需要提醒的是,元评分(MetaScore)是给定标题的所有可用评论评分的加权平均值,并"根据其质量和总体地位"给予某些评论员额外的权重。因此,我们用于此分析的数据集是通过MetaCritic网站生成的(https://www.metacritic.com/about-metascores)
我们抓取了以下的数据:
· 我们在三个主机(PS4、XBox One和Switch)上的13334个条目。
· 许多游戏没有指定元分级。产生的原因是没有足够的评论来聚合一个评论。
· 同一游戏对于其上可用的每个主机都有不同的内容。
· 给定游戏的元评分可能会有很大的变化,这取决于评论所针对的主机。
衡量两个游戏机中哪一个最好的最公平的方法是只检查出现在两个主机的游戏。事实上,如果我们看一下每个主机上可用游戏数量的文氏图( Venn diagram),我们会发现它们之间存在着明显的重叠——特别是PS4和XBox One之间(技术上更为相似,并且几乎同时发布)。
非独占游戏
假设我们想调查一下,对于PS4和XBox One上都有的游戏,哪个版本更有可能获得更好的元得分。要做到这一点,我们首先分离至少有这两个主机的元分数的标题,然后,在一个游戏的基础上,从另一个游戏机中减去一个游戏机的分数(在本例中,从XBox one中减去PS4)。
让我们使用seaborn的KDE图可视化这些分数差异
我们可以看到,与PS4相比,游戏在XBox One上的总分平均略高。话虽如此,差距似乎很小(平均略高于1分),而且幅度相当大,两边都是平均值。综上所述,我们能否得出结论,主机之间的平均差异是显著的?这听起来很像假设检验的依据,所以让我们想想这样的检验可能是什么样的。
如果我们试图证明一个游戏在一个主机上的元得分与另一个主机上的元得分之间存在显著差异,那么我们需要拒绝它们之间没有差异的假设。
一个稍微微妙的点将有助于告诉我们如何进行-虽然我们已经抓去了整个元批评,但是我们仍然在处理一个游戏样本,而不是一个群体(我们分析的时候排除了没有元得分的游戏,因此,根据定义,正在使用两个主机上可用的所有游戏的子集)。
在总体水平上,一个游戏在任何两个游戏主机上的平均分差确实是零。当然,流行度的平均值是0。为了证明两个主机之间存在显著差异,我们需要证明我们的样本绝大多数不可能是从假设的零均值总体中提取的。
这是几乎任何一个样本假设检验的逻辑基础,但是当我们解释结果时,从第一原则考虑这些问题(而不是盲目地将数字插入公式中)是有用的,并且将有助于确保我们得出正确的结论。回到手头的问题-我们现在可以陈述我们的无效和可选假设:
H₀:主机之间的平均差异=0
Hₐ:主机之间的平均差异≠0
下一步是定义我们的α(当我们不应该拒绝H₀时,我们拒绝H₀的可接受概率)。0.05对大多数人来说是一个足够好的α,所以对我们来说已经足够好了。换言之,如果我们真的拒绝H₀,那么我们这样做的错误几率只有5%。
要确定是否可以拒绝H₀,我们现在需要创建"T-Statistic",它由以下公式给出:
其中x是样本均值,μ是总体均值,s是样本标准差,n是样本量
我们可以将其与T分布(具有适当的自由度)进行比较,并绘制出T-Statistic,这里显示为一条垂直红线。这个T-Statistic产生一个p值,相当于红色T-Statistic右边T分布下的面积。
XBox One对PS4。蓝色曲线下总共有5%的区域是粉红色的,这反映了我们选择α=0.05。
我们可以从视觉上看到,我们的p值将远远低于α阈值0.05。由此,我们可以拒绝无效假设并得出结论,对于同时出现在PS4和XBox One上的游戏,xboxone版本更可能具有更高的元临界分数。
顺便说一下,我们可以遵循完全相同的过程来表明:
游戏在XboxOne上的得分要明显高于switch。
与Switch相比,游戏更有可能在PS4上获得更高的分数(尽管在这种情况下,对空假设的拒绝要少得多)。
独占游戏
所以我们能得出结论,XBox One是最好的第八代游戏机吗?我们实际上忽略了数据集中一半的作品。事实上,如果我们调查PS4的前十个元得分,我们会发现其中有七个是主机独占(因为它们在XBox或Switch上都不可用)。
同理,任天堂Switch的前十大游戏中有一半在XBox或PlayStation上找不到…
XBox one前十名中只有一款游戏是独占的。
PS4和Switch拥有最好的独占性的这一观察似乎得到了证实——Switch的独占性的平均得分最高,而XBox One的得分最低
我们怎样才能更严谨地得出这个结论呢?我们处理的是样本,而不是种群。尽管我们的数据集包含了许多现有的主机独占游戏,但有些游戏没有元得分,因此被排除在分析之外。
我们再次采取假设检验的方法。如果我们想证明主机A排他性比主机B上的排他性高得多,我们需要以某种方式拒绝一个陈述相反情况的无效假设:
H₀:主机A排他性的平均得分≤主机B排他性
Hₐ:主机A排他性>主机B排他性的平均得分
注意,虽然先前测试中的无效假设检验了两个总体平均值是否相同,但这里我们假设了一些稍有不同的情况-一个总体平均值要么与另一个相同,要么小于另一个。这意味着我们将进行"单尾"测试。
我们还需要记住一些其他事项:
1. 样品有不同的大小(例如PS4有1675独占游戏,而XBox只有854个)
1. 样本的总分有不同的标准差
1. 不明显的是样本是从正态分布中提取的-它们的KDE图看起来都是负偏斜的
韦尔奇T检验是我们常规T检验的一种变异,它能更好地处理不同大小和变异的样本。但是,它仍然假设数据是正态分布的。如果我们得出结论,我们的样本不是从正态分布总体中提取的,那么我们应该转向非参数方法,例如排列测试。
如果我们在专业的背景下处理这个问题,我们可以运行Kolmogorov-Smirnov检验来对样本的正态性做出明确的决定。为了便于说明,让我们暂时忽略这一点,尝试两种方法,看看我们得到了什么结果。
我们看到参数和非参数测试在每种情况下都返回几乎相同的p值。事实证明,对我们的样本进行Kolmogorov-Smirnov检验表明,它们确实不太可能来自正态分布的人群
总结
从假设测试中我们可以得出的结论是,XBox One在三款游戏机中的主机独占游戏绝对是最差的。虽然Switch的排他性得分高于PS4的平均分,但这一差异似乎没有统计学意义。
因此,决定一个"获胜"的第八代游戏机取决于你作为玩家需求,尤其是你看重的游戏。所以还是根据游戏选主机吧。
作者:Callum Ballard