曾在NBA尼克斯工作,赴美读博学体育,他想帮姚明为中国篮球分析数据
9月4日,中超广州富力队唐淼发布了一则有些心酸的微博——由于数据统计的不健全,其100场、200场出战都没有被“纪念”。更心酸的是,当德国转会市场中国区管理员朱艺转发了这条微博之后,目前的中超射手王武磊在下面回复——“能帮我查查我多少场了吗”。
无疑,这在一定程度上反应了目前中国职业体育数据统计不完善的现状,更遑论数据分析了。但还好,已经有很多人意识到了这个问题,并且已经在着手改变现状了。
今天,圈哥就给大家带来一个篮球数据分析大神的故事,希望在未来,唐淼这类心酸故事可以远离我们的赛场,而数据分析可以助推中国体育跑的更快一点。
文/ 赵 高明 编辑/ 吴 础怡
下午两点,艳阳高照,南卡罗来纳大学体育与娱乐管理系的2046办公室,身穿粉紫色格子衬衫的龚骅正在电脑前凝神思考着什么,我的敲门声打断了他的思绪。
这是他在南卡州首府哥伦比亚读体育管理博士的第三年,此前,龚骅在NBA球队尼克斯做过数据分析工作,再早些时候,他在民风剽悍的德州拿到了体育管理硕士学位,高高大大的身材显露出了他曾经大学校篮球队球员的身份。
哥伦比亚地处美国最南部,夏季炎热干燥,2016年人口尚不足14万,4万余名南卡大学的学生占其总人口近三分之一。可以毫不夸张地说,这是一座围绕大学建造起来的城市。
凭借多年积攒起来的学科声誉和一干具有职业球队工作经历的教授,南卡大学的体育与娱乐管理常常在各大体育管理专业榜单的前列出现。 南卡整个州内没有任何一支美国四大联盟球队,不过南卡大学的男子橄榄球,男、女篮,以及他们与1小时车程之外的克莱姆森大学间的“世仇”,总是被当地人津津乐道。
相比早先在纽约工作时身处繁华大都市,在南卡大学读博这三年,龚骅的经历更具“结庐在人境,而无车马喧”的况味。大学主修经济学的他,在南卡大学研究体育经济方向,除了日常的阅读和研究之外,他不仅修了其他两门课、还要给低年级学生上两门课。 即便是体育管理这样光听起来就充满活力的专业,读博也是一个需要坐冷板凳的过程。
硕士毕业在尼克斯短暂工作一年后,因为签证原因龚骅没办法继续留在球队。 对他来说,读博更像是一个折中的选择,虽然没办法继续在职业球队工作,但还是能留在美国,更加深入地了解美国体育运作的模式和内在机理。
右三就是求学中的龚骅与同学和教授的合影
美国体育管理专业博士的毕业年限大概在三到四年,临近毕业的龚骅告诉我,他目前打算先寻找在美国大学任教的机会。而他读博期间倾注心力搭建起来的一个篮球数据网站“GG篮球”,会是另外一个着力点。
“我选择了尼克斯,尼克斯也选择了我”
比起从硕士到工作、再到博士的这个过程,其实数据分析是龚骅体育相关经历中更为明晰的线索。
读硕士期间,他在德州农工大学篮球队工作时,会跟着球队到州外跟其他学校比赛,连续数日高强度的工作是常有的事。 不过借此机会,他也见识了到美国校园篮球完备的球队体系,包括视频录像分析、数据分析等等。 为了降低未来进入美国职业球队的竞争压力,龚骅选择了自己相对擅长、同时难度也更大的数据分析领域切入。
比较遗憾的是,直到现在,多数美国大学的体育管理专业仍没有开始数据分析的相关课程。 当时龚骅是通过选修其他学院的课程和自学,一步步具备了成为一名职业球队数据分析员的能力。
体育数据分析(资料图)
“一方面是选修其他学院的相关课程,一方面是根据职位描述自学的相关内容。”龚骅说。 在他的技能包中,包括编程语言Python,R语言,SQL等等,可以想见,整个学习过程颇为不易。
学习不易,应用更难。在美国,职业联赛球队数量有限,可提供给龚骅的职位选择也就很有限,而每一个职位后面都可能有数百个美国本国青年正排着长队孜孜以求。
但龚骅还是拼力一试。5月硕士毕业,他从2月就开始投简历,发邮件。从2月到8月,总共发了100多封邮件,经历了不知道多少轮面试和电话面试。在申请费城76人职位的过程中,他经历了7轮面试,但在最后一轮被筛选出局。说到这里,龚骅的笑容有点苦涩。
“当时想,之后只要有哪个球队给了我offer,我就去。”
否极泰来,很快尼克斯的offer到了。后来陆续还有一些NBA发展联盟(现在的G League)球队的offer, 龚骅最终选择了尼克斯 。
效力尼克期间的龚骅
2015年10月他来到大苹果城,在皇后区的法拉盛安顿下。龚骅的工作在平日里朝九晚五,这时他都会驱车前往工作地点;而到了比赛日,则需乘坐1小时的地铁前往尼克斯主场麦迪逊广场花园。
在比赛现场,他的主要工作任务是帮助联盟的SportsVU系统进行数据的录入——比如场上球员的跑动速度、每位球员的突破次数等等,事后这些数据都会在NBA官网得以呈现。通常他完成工作都在晚上12点之后,接着再坐地铁回家。
第二天早上,龚骅7点甚至6点就要开始工作,他会根据团队主管的要求完成前日晚上的球员表现报告。当ESPN、Fox、腾讯这些媒体在为球迷生产赛事内容的时候,更加深入的球员分析会经由数据分析团队的手交到球队高层手中。
龚骅当时的工作环境
龚骅在尼克斯的那一年,“禅师”菲尔-杰克逊还在任上,虽然尼克斯常年处在球迷口中“烂泥扶不上墙“的状态,并且后来禅师也黯然离去,但从龚骅口中得知,仅从数据分析部门来看,无论战绩好坏,他们一直都在极为职业得做着自己的工作,给球队提供更为科学合理的参考。球队战绩往往牵扯太多因素,并不能简单归因一处。
大体上来看,他们的5人数据分析团队主要完成以下工作: 搜集数据、存储数据、数据建模、分析数据和数据可视化,而一切数据都围绕球员展开。
2016-2017赛季,被交易后的德里克-罗斯效力于尼克斯。数据团队会结合罗斯的历史数据、年龄及伤病史,分析和预测他在未来的表现,最终评估其续约价值。
每年的交易截止日,6月的选秀大会和7月的自由市场,是他们工作的重要节点。还没有进入联盟的、刚进联盟的、打得不错的、合同快到期的、处于各种阶段的球员都会被他们用数据精准扫描一遍。在签约球员之前,数据团队会对他们的价值进行整体的评估,从而帮助球队给出合同报价和年限。
一年的工作时间里,尼克斯和龚骅“郎情妾意”,彼此都从对方身上收获了巨大的价值。只是无奈于签证问题,尼克斯最终只能是他旅途中的一家驿站。
“除了日常工作之外,当时我也帮助球队设计了很多可以快速查询数据的软件,球队对我很满意。而整个工作过程中,我熟悉了更多球队注重的数据指标,也得到了很多跟资深球探、球队总经理或副总经理接触的机会,这让我在球队的运营管理方面有了更深的理解。”龚骅说。
临别前,球队总裁菲尔-杰克逊在自传《Eleven Rings》的扉页上写了一段赠言,说他给球队带来了“ 大大的帮助(a big help) ”,这本书经由同事转交到了龚骅手中。
球队总裁的临别馈赠
就像菲律宾裔的斯波尔斯特拉,从多年前球队的录像剪辑师,变成如今的热火队主教练一样,如果能留下,那么龚骅可能会开启他在职业球队内部的职级爬坡之旅,若干年后成为数据团队主管、甚至莫雷式的数据分析型总经理也未可知。当然,这一切目前都只能是“如果”。
割爱尼克斯,孵化“GG篮球”
“如果我在职的话,一些数据会涉及球队机密,没办法发布出来给公众。”而在离开尼克斯之后,龚骅也草创了GG篮球这样一个数据网站。
登录“GG篮球”的网站,可以看到数据分析文章,NBA数据库和CBA数据库这三大部分内容。数据分析文章主要由龚骅的两位合作伙伴完成,而整个网站的搭建、数据的抓取、清洗和录入都由龚骅独自完成。
如今GG篮球的模样(网站截图)
2017年,他花了几个月的时间陆陆续续完成了网站的基本内容,而后每天都会花上一定量的时间进行网站迭代和数据更新。每个月,他会为搭建网站的服务器支付20美元的费用。
“GG篮球”最初的定位是做NBA相关的数据分析内容,后来因为市场上同质产品众多,龚骅和他的合伙人决定以CBA数据为突破口,之后再考虑铺开业务深入涉足NBA数据。相比于美国各大联赛的数据库,国内赛事的数据统计,无论是从设备技术,还是工作人员素质都还处于比较原始的阶段。但球迷们对CBA数据日益有了更大的需求。
“我们想快速、准确、全面地给国内球迷提供CBA球员和球队的信息。” 龚骅说。
在姚明出任中国篮协主席之后,包括数据统计在内的很多方面都有所提升
事实上,在过去很多年里,CBA的数据统计没有形成一个固定的体系,目前的CBA官网上也仅有最近两个赛季的数据,且数据大多比较简略,信息价值也有限。
由于缺乏统计手段,“GG篮球”目前做的主要是对通过整合国内各大门户网站和CBA官网的数据源,在进行数据清洗之后,形成一个更为完善准确的数据库。
对于龚骅来说,数据清洗是最伤脑筋也是投入时间最多的一部分。比如,CBA官网上只记录了球员的三分球命中率和三分球命中次数,没有三分球出手数的数据,那么为了数据更加完整,就需要通过两分球的相关数据来进行推算。比如,CBA官网没有球员上场时间的数据,那么就需要从其他网站调用。
整个过程需要反复核实验证,来尽可能地保证数据的完整性和一致性。
完成了阶段性的工作后,龚骅曾经在篮球迷极为活跃的虎扑论坛发帖介绍过自己的网站,收到了众多好评的同时也有不少有价值的反馈。据介绍,目前网站数据库仍然在不断完善之中。
事实上,龚骅团队现在在做的这件事情,很容易让人联想到美国最大最权威的NBA数据网站Basketball Reference(以下简称“BBR”)。 其创始人Justin Kubatko有应用数学的教育背景以及数据分析的工作经验,除了详尽的基础数据外,在BBR上你可以查阅到大量球员和球队的个性化数据,乃至可以通过设置相关参数搜索到对应的球员。
BBR网站首页
显然,这一方面是网站数据处理能力的体现,一方面也得益于NBA已经成熟稳定发展多年。而对于CBA数据来说,后者是难以在短时间内弥补的,还需要一代篮球人的不懈努力。
数据冰冷,唯有投入热忱
对于篮球和中国篮球,龚骅始终有着宏大的愿景,这也让他很坚定地要把 “GG篮球( gghoop.com )” 这个网站做下去。
GG篮球这个名字,取自他的“龚”姓和另外一个合伙人的“郭”姓的首字母
未来,龚骅想在既有篮球数据库的基础上,基于一些模型对数据进行深加工。 比如建立一个评测外援跟球队匹配度的系统、分析一支球队的最佳阵容组合等等。 而近期,他的愿望是自己的网站能够得到更多球迷的关注,让他付出的心血真正为人所用。
而当我们仰视NBA的时候,也看到了大洋彼岸数据公司的成长史。
早年间,BBR上的一些早期数据得以完善,人的作用非常重要——一位密歇根州的高龄老人,出于对篮球运动和数据统计的热爱,他从上世纪40年代末就开始通过各地的报纸收集比赛的数据统计表格,保存下了大量的篮球数据史料。
与此同时,一家名叫Baseball Reference的数据网站,也由其创始人Sean Forman在2000年一手操办起来。当时,从小热爱高尔夫和棒球的Forman刚刚在爱荷华大学读完应用数学博士,在圣约瑟夫大学开始他的教职生涯。那个时候,Forman每个月为网站服务器支付25美元。
2004年,BBR的创始人Justin Kubatko已经离开,而Baseball Reference在创始人的Sean Forman的带领下逐渐发展壮大,在2004年吞下BBR之后,连同自己的BaseballReference、Pro-football Reference、Hockey Reference等多个同类型数据库网站,合并成立了Sports Reference——经历了18个年头的发展之后,这家网站与公司都进入了平稳发展的阶段。
Sports Reference网站
从草创到拥有如今的庞大数据库,在美国这样的土壤中,也走过了近20年的时光,因此,在国内,体育数据分析同样是不能急于求成的。
近几年,国内体育数据领域有几家公司先后完成了不同轮次的融资,不过更多集中在足球领域。篮球领域最为知名的是贝泰科技,他们已经深耕体育数据十多年,并在2016年拿到微赛体育的A轮融资,投后估值8500万人民币。目前贝泰科技服务于CBA、NBA以及国内外多家体育媒体,在业务方面则跟国际数据公司Sportradar达成了合作。
↓国内体育数据公司融资情况(生态圈整理自网络)
不过,在国内体育互联网彩票尚未放开,体育消费与体育数据意识还不够的情况下,体育数据公司也遇到了不少难题,据悉,有一些公司已经转投区块链等技术产业的怀抱,这似乎与用数据提升中国体育的初衷渐行渐远。
还好,大环境依然是昂扬的。就拿篮球领域来说,中国男、女篮刚刚在亚运会双双夺冠,CBA在篮协主席姚明大刀阔斧的改革之下,也喜人地逐步迈上了新台阶。对于中国体育产业来说,想要取得长足的发展,无疑也需要每个细分领域都得到提升,在这之中, 数据分析无疑是不可忽视的一环,这也给其中的公司与个人提供了潜在机遇。
站在自己的“2000年”,龚骅与整个行业都有机会赶上中国篮球和CBA成长的这辆列车。 虽然龚骅的项目仍处于早期阶段,但他已经做好了准备,想要长期投入到这项他热爱且擅长的工作中,想要为中国体育数据事业贡献自己的全部力量。