首页 / 行业新闻>

品牌介绍

【台球新闻】数据能告诉你的,远比「希金斯最强」更多!

发布时间:2021-05-27 18:02:20 | 我要分享 >

  在各种体育运动中,都有伴随大量比赛产生的大量数据。随着技术的不断发展,在体育运动中还将有更多种类和数量的数据被记录。虽然数据量巨大,但如何利用这些数据一直缺乏全面、可靠的研究。本文建立了一个包含88位斯诺克球员的生涯数据库,并采用一些多元统计方法对他们的能力、成就等方面进行综合分析。

  1、 引言

  在任何一项职业体育中,对运动员进行比较都是一个永不过时的话题。在斯诺克运动中,也不例外。我们在对球员进行比较时,常常会用到一些数据,但往往都是一元的简单排序。对于斯诺克比赛中浩如烟海的数据来说,仅仅得到如此简单的结论,显然没有发挥出它的全部潜力。之前「台球不闹腾」曾推送过一篇利用了1968年以来职业比赛结果数据进行复杂网络分析的文章,但其分析结果是约翰·希金斯是表现最佳的球员,这显然无法得到大部分球迷和专家的认可。下面的“文献综述”部分将有助于读者理解为何复杂网络分析被用于职业体育相关的分析,以及为何它得到的结果存在较大偏差。

  文献综述

  用数据方法研究职业体育的尝试并不罕见,但是数量也并不多。这可能与数据的有限和缺失有关。以斯诺克运动为例,在2010年以前,即使是职业巡回赛中,也有大量的资格赛比赛没有详细的得分等数据。而现在职业巡回赛中的所有比赛都有详细的精确到每一杆的时间以及对应结果的记录,并且有全程录像。此外,在电视台转播的比赛中,为了更好地解读比赛,通常都有详细的技术指标数据,例如进球成功率、防守成功率、长台成功率等。但这些数据不可能在每一场比赛中提取,因为需要对录像进行人工分析,工作量太大。

  在现有的关于职业运动的研究中,复杂网络(complex network)是一种被广泛采用的方法。它体现了真实网络中小世界、无标度的特性(周涛,柏文洁,汪秉宏,刘之景,严钢,2005)。小世界指的是网络中的节点间平均距离通常很小,与社会心理学中的的六度分隔理论类似。而无标度指的是少数节点拥有大量连接的特性。事实上,这与对抗性的职业体育中的情况很类似。大部分运动员间都有过交手记录,即使没有,通过两三个“中间人”也能连接到;而那些成就较高的运动员就是网络中连接较多的节点,因为他们打的比赛较多,面对过更多对手。因此复杂网络适合于针对对抗性的职业体育进行研究。

  最初应用复杂网络进行的研究针对职业网球。Radicchi(2011)采用复杂网络研究了历史上所有职业网球男子单打运动员间的交手,得出了历史上的职业球员排名,并且在不同的场地(硬地、草地、红土)以及不同的赛季中分别进行了排名。在这份榜单中,美国运动员吉米·康纳斯排名第一,而罗杰·费德勒仅排名第七。这显然并不很符合一般人的认知。

  在斯诺克领域,同样有利用复杂网络进行的研究,这也是目前笔者所知唯一的针对斯诺克的数据研究。O’Brien, Gleeson和 Estrada(2020)利用一种名为PageRank的算法对1968-2020年中所有职业斯诺克球员间的交手记录进行了复杂网络研究。该方法的主要优势在于,可以自动考虑交手双方球员的质量,以进行加权计算。虽然得出的结果与获胜数具有明显的线性相关关系(图 1),但结果显示,约翰·希金斯是史上最佳球员,而不是罗尼·奥沙利文或斯蒂芬·亨德利。这项研究与之前对网球运动的研究都说明了复杂网络分析对于职业体育的分析可靠度有限。

  401.png

  图 1 球员胜场数排名与PageRank计算得到的排名间的关系(O’Brien et al., 2020)

  就这项研究而言,限制其准确性的最大因素就是采用数据的单一性以及其导致的偏差。由于复杂网络本身的特性,它需要针对每场比赛进行分析,也只能采用这一种数据进行分析。可以看到,结果确实与历史胜场数相差不大,但问题在于,胜场数与球员实力的联系本来就不大。

  一方面,职业生涯较长的球员,其胜场数会越多,这导致了对新近崛起的球员如贾德·特鲁姆普的低估;即使我们考虑生涯总成绩,胜场数的说明意义也不大 —— 罗尼·奥沙利文与约翰·希金斯同一年转入职业,各项成就均高于希金斯,但他仍然排在希金斯之后,主要是因为他的胜场数较少。这与他的实力并无关系,而是因为他选择性地参加赛事,对一些小比赛不屑一顾,这导致他的胜场数要较希金斯为少。斯蒂芬·亨德利是另一位史上最佳球员的有力争夺者,他的胜场数较少的原因在于他活跃的时代每年巡回赛的数目本来就远少于近十年,能打的比赛有限,胜场数自然就少了。此外,他过早地选择退役也是一大原因。他在2012年宣布退役时,世界排名仍有21位,可以预期,如果不过早退役,他的胜场数还会高许多。

  基于以上研究的不足之处,本研究打算采用多元统计分析方法,对更有说服力的多个维度的数据进行综合考虑和分析,基于生涯数据给出职业球员的总体排序和分类,并试图回答“谁是史上最佳”的问题。此外,针对数据的特点及作者的兴趣,还研究了若干小问题,在此不一一描述。

  2、研究方法

  2.1 数据集

  本研究的数据来源于斯诺克数据网站cuetracker.net,所有数据截止到2021年斯诺克世界锦标赛结束。由于并未与网站管理者取得联系,只能人工获取数据,加之精力有限,本研究仅选取了比赛场数超过500场的86名球员,加上在年轻球员中表现突出,当前世界排名在前十六位左右的颜丙涛、周跃龙,共88位球员,获取了他们的比赛场数、胜场数、场胜率、比赛局数、胜局数、局胜率、决胜局数、决胜局获胜数、决胜局胜率、总得分数、总被得分数、破百数、满分杆数、冠军头衔数、三大赛(世界锦标赛、英国锦标赛、大师赛)冠军头衔数、职业生涯总奖金、职业生涯赛季数等一系列数据。详细数据集可以联系作者获得。

  2.2 数据预处理

  本研究采用的原始数据,如胜场数、胜局数、冠军数等,多为计数数据,这类数据分析得到的结果偏向于生涯成就,但由于前文所述的职业生涯长度和选择性参赛等因素的影响,得出的结果往往有失偏颇。为了消除上述影响,突出球员的竞技水平,同时也使数据具有更强可比性,本研究将对数据进行处理,使其在时间维度上不累积。对于场、局等数据,采用胜率指标;将破百数和满分杆数除以比赛局数得出破百率和满分率;冠军头衔数除以总参赛数得出参赛夺冠率;三大赛冠军数和职业生涯总奖金除以生涯赛季数得到赛季平均三大赛冠军数和奖金。对于每种分析,均采用原始数据和处理后数据分别计算,其结果分别命名为“成就”和“能力”。

  在某些需要对这些数据进行进一步预处理的时候,统一采用Z分数变换。

  3、结果与讨论

  由于本文采用的数据分析方法比较复杂,因此这里仅针对每种统计方法进行简单介绍,并对主要结果进行解读。如果想要了解统计方法的详细原理,请自行查阅有关资料。

  3.1 主成分分析

  主成分分析是一种数据降维方法,简单来说,就是从一组多维变量中提取出数据变异幅度最大的方向。而在这里,我们应用主成分分析主要是想解决数据种类太多,无法选出单个合适的变量来对球员进行排序的问题。通过提取数据主成分,我们可以对球员多个维度的能力进行综合判定。

  3.1.1 成就分析

  对胜场数、胜局数、胜决胜局数、破百数、满分杆数、职业生涯总奖金、冠军数、三大赛冠军数共8个变量进行主成分分析,如无特殊说明,后续采用的也都是这八个变量。提取出一个主成分,该主成分各个变量的系数都比较大,可以简单理解为实力。载荷最大的是总奖金,说明职业生涯总奖金作为一般性的衡量生涯成就的标准是较为合适的。

  402.png

  对该主成分的得分进行排序,前二十名如下。

  403.png

  图 2 主成分得分成就排名

  3.1.2 能力分析

  对上述8个变量的能力数据进行主成分分析,仍然只能提取一个主成分,在载荷矩阵中可以看到,场胜率的载荷最大,说明这个数据最能反映球员的水平。

  404.png

  主成分得分前二十名如下。

  405.png

  图 3 主成分得分能力排名

  可以看到,贾德·特鲁姆普和丁俊晖的排名有一个跃升——他们俩相对于其他球员较为年轻,因此采用成就排名会低一些。此外,周跃龙、颜丙涛等小将也榜上有名,而在此前的成就排名中,他们毫无悬念地排名末尾。但事实上,年仅21岁、成就排名最末的颜丙涛已经获得了三大赛之一的大师赛冠军,单这一项成就应该已经足够使他跻身前30名。

  总的来看,虽然成就排名在成就较高的球员中表现不错,但其在一些特殊球员中产生了很大偏差。除上述的颜丙涛的例子外,一些职业生涯较短但取得辉煌成绩的球员排名反而不如一些长期混迹于职业赛中,但成绩十分一般的球员。例如三届大师赛冠军,因罹患癌症英年早逝的保罗·亨特,在成就排名中仅列第78位,而能力排名则排在第12。显然,后者更符合他的真实水平。在主成分得分方面两种算法的区别让我们看到,在职业生涯长度不等的情况下,采用胜率数据进行分析能够有效降低偏差。

  3.2 多维标度分析

  多维标度法(MDS)简单来说就是已知物品之间的相似度(距离),在一个二维或三维空间进行表示。如果说上面的主成分分析是在一维空间内对球员进行排列,那么多维标度法的基本目的和它是一样的,只不过把展示空间换成了二维,更加直观。但需要特别指出的是,与主成分分析不同,多维标度法的两个维度本身不具有任何意义,有意义的只是点与点之间的距离。

  3.2.1 成就分析

  406.png

  图 4 对全部球员以成就变量进行多维标度所得结果

  可以看到,大部分球员集中于左下角的集团中,少部分球员居于中间的稀疏地带,右侧有四个明显的离群点——罗尼·奥沙利文、斯蒂芬·亨德利、约翰·希金斯和史蒂夫·戴维斯,其中又以奥沙利文为最。这与之前用主成分分析得到的结果是类似的,但多维标度法更容易使人直观地看出奥沙利文与其他球员的差距之大。

  3.2.2 能力分析

  407.png

  图 5 对全部球员以能力变量进行多维标度所得结果

  可以看到,采用能力变量后,左下角大量球员的集团出现分化,整体变得更加均匀。两个主要的离群点是奥沙利文和亨德利,这也与上面的主成分分析结果相吻合。

  总的来说,多维标度法可以直观地展示几位伟大球员与其他球员的距离,但对于大多数其他球员并不能得出有效结论。

  3.3 聚类分析

  我们最常见的聚类分析的例子就是生物的分类。这是一种利用多种变量对个案进行分类的方法。简单来说,在这里采用该方法的目的是对球员进行分档。

  3.3.1 成就分析

  谱系图见图 6。可以看到,大部分球员都被归为一类,这与前面MDS的结果是吻合的。将这些球员统一视为一类,可以得到以下分类结果(表 1)。球员被分为三大档,前两大档又可以分别细分为两类。

  表 1 以成就变量进行系统聚类分析得到的结果

  413.png

  可以看到,虽然一些数据已经被希金斯追上,如破百数、满分杆数和职业生涯奖金数,但亨德利仍和奥沙利文而不是希金斯在成就方面更接近,这符合一般的认知。此外,刚刚获得个人第四个世锦赛冠军的塞尔比已经与威廉姆斯和戴维斯处于同一类,这说明在成就方面他已经明显超过了他的80后同辈们。

  3.3.2 能力分析

  谱系图见图 7,分类结果见表 2。

  408.png

  图 6 以成就变量进行系统聚类分析得到的谱系图

  409.png

  图 7 以能力变量进行系统聚类分析得到的谱系图

  表 2 以能力变量进行系统聚类分析得到的结果

  414.png

  仔细观察可以发现,这个聚类结果出乎意料地反映了某些球员的风格。以希金斯、塞尔比、特鲁姆普、罗伯逊、丁俊晖这一小类为例,希金斯和塞尔比的距离更近,他们都擅长控制型打法;而特鲁姆普和罗伯逊更近,他们都以准度著称。而丁俊晖则与他们都有一定区别,打法较为均衡。此外,在2-1小类中,特里·格里菲斯和约翰·帕洛特距离较近。这两位球员都是年龄较大,年代较早的。

  3.4 判别分析

  判别分析的主要用途是通过大量信息建立判别函数,用于判断在数据集之外的新样本的所属类别,而在这里我们交叉检验来验证我们获得的信息是否足以支持我们进行有效的判别分析,也就是判别结果是否能和真实情况相对应。

  3.4.1 对球员是否退役的判别分析

  在之前的聚类分析中,我们已经能看出,通过一些数据,一些年代久远的球员会被与其他球员分开,因此这里以比赛场数、胜场数、比赛局数、胜局数、破百数、满分杆数、生涯总奖金数、赛季数等8个变量为指标进行一个判别分析。

  410.png

  交叉验证结果显示,判别结果较好。

  具体到个案,在被误判的已退役球员中,阿尔菲·伯顿和迈克·邓恩都是近几个赛季刚刚退役,而杰米·柯普是由于伤病被迫退役,这些因素可能导致他们的数据更像现役球员。在被误判的现役球员中,安迪·希克斯、李·沃克和斯蒂芬·亨德利都有过退役后复出的经历,而阿兰·麦克马努斯在本赛季结束后宣布退役。

  3.4.2 对球员是否获得过世锦赛冠军的判别分析

  以前文所述的八个能力变量,再加上赛季数,对是否获得过世锦赛冠军进行判别分析。

  411.png

  交叉验证结果显示,判别结果较好。

  可以看到,判别函数仅准确预测了17位冠军中的8个(奥沙利文、亨德利、戴维斯、希金斯、威廉姆斯、塞尔比、罗伯逊、特鲁姆普),这说明即使是赛制最长的世锦赛,仍然有相当大的偶然性因素,实力稍差的球员也有机会夺冠。值得注意的是,在六届世锦赛亚军吉米·怀特都未被误判的情况下,唯一一位被误判为已获得世锦赛冠军的球员是丁俊晖。这与外界普遍认为他拥有夺冠的能力,以至于他何时能拿到世锦赛冠军已经成为老生常谈的话题一致。该结果再次说明他理应获得世锦赛冠军头衔,如果他最终还是没能获得,不得不说是一种遗憾。

  3.4.3 对球员是否获得过排名赛或大师赛冠军的判别分析

  以前文所述的八个能力变量,再加上赛季数,对是否获得过排名赛或大师赛冠军进行判别分析。

  412.png

  交叉验证结果显示,判别结果较世锦赛冠军的判别效果稍差。

  在未获得过冠军但被判定为获得过冠军的球员中,肖国栋的判别得分最高,显示他是数据分析得出的“无冕之王”,乔·斯威尔排名第二,一般意义上认为的尚未获得排名赛冠军的最佳球员杰克·利索夫斯基仅排名第三,另一位有力竞争者大卫·吉尔伯特直接被判定为无冠球员。而另一方面,在获得过冠军但被判定为未获得冠军的球员中,前世锦赛冠军斯图尔特·宾汉姆赫然在列,另外还有两位公认的实力球员梁文博和塔猜亚·乌诺。

  上述结果都说明虽然判别效果与对世锦赛冠军的判别效果看似相差不大,但实际上该判别分析的结果有严重的偏差。造成该结果的主要原因是数据集中包括的球员基本代表了斯诺克运动中的最高水平,有5/8的球员都获得过冠军,因此那些未获得冠军的球员不具有代表性。如果在全体球员的集合中进行判别,效果应该会大大提高。而世锦赛冠军的判别效果较好是因为由于世锦赛冠军的稀少,数据集中未获世锦赛冠军球员的代表性较强。

  4、总结与展望

  经过一系列分析,除了各自的基本结果外,我们还可以从中得到一些共性的结论。

  首先,关于谁才是史上最佳球员的问题,答案已经十分明确。无论是从生涯总成就还是技术指标的能力来看,罗尼·奥沙利文都是毫无疑问的史上第一,而斯蒂芬·亨德利则稳坐史上第二。约翰·希金斯在成就方面暂居第三,但已经与亨德利很接近,也许很快可以超越;但在能力方面,特鲁姆普才是第三位,且如果他能维持近三个赛季以来的良好状态,还会进一步提升。

  其次,给数据分析带来偏差的主要因素是跨年代比较,特别是一些活跃于七八十年代的老球员,很难与现代球员进行有效对比,当然这也侧面说明了斯诺克运动在近四十年的快速发展。

  最后,综观各项分析,相信大部分具备一定专业知识的人都对得到的结果基本认同。这说明采用多元统计方法对职业运动员的数据进行分析的效果是比较好的,至少比复杂网络得出的结论要更接近实际情况。当然,分析方法的选择、变量的选择,结果的评价仍然需要具有专业知识的人的判断和辅助,但显而易见的是,就像主成分分析结果揭示的那样,更加合理、可信的分析一定是需要综合考虑多种指标的。

  由于数据可获取性和精力所限,本研究所做的工作还是非常粗浅和有限的,分析方法的优化以及各类新兴统计方法的应用还有待于进一步的研究,在数据科学飞速发展、职业体育特别是电子竞技的受众越来越大、产生的数据种类与数据量都越来越多的今天,这可能是一个十分有趣且富有前景的课题。

  最后的最后,作为一位普通的中国斯诺克球迷,针对中国球员的发展,作者还想多说两句题外话。在数据显示的结果中可以看出目前中国斯诺克的主力军是丁俊晖、颜丙涛、周跃龙三位球员。其中丁俊晖是完全有能力获得世锦赛冠军的,这也将是他职业生涯中一直孜孜以求的目标。而颜丙涛和周跃龙作为转职业时间较短的小将,已经拥有了一个良好的开始,能力指标可以排在历史前20,但想要把自己的能力真正转化为成就,仍需要在接下来的时间继续维持高强度的训练以及良好的竞技状态。如果能做到这两点,考虑到他们的年龄,他们将注定成为下一个时代的王者。

  参考文献

  O’Brien, J. D., Gleeson, J. P., & Estrada, E. (2020). A complex networks approach to ranking professional Snooker players. Journal of Complex Networks, 8(6).

  Radicchi, F. (2011). Who is the best player ever? A complex network analysis of the history of professional tennis. PLoS One, 6(2), e17249.

  周涛,柏文洁,汪秉宏,刘之景,严钢.(2005).复杂网络研究概述. 物理(01),31-36.

全国招商2.jpg

相关新闻更多 >