18年见识到勒布朗的天神下凡般的表演后,就想做点什么事情。19年注册了域名,有了做一个网站的想法,但因为老詹受伤后球队表现急转直下,后面甚至比赛也不怎么看了。20年来了浓眉后,终于再次看到了夺冠的希望,心里面也逐渐构思出网站的一些设计,但由于工作的原因也迟迟没有开始。今年过年回家,在火车上突然思潮迸发,回家居家隔离的时间也完成了部分的开发工作。
可能太久没有在公开的社交平台上发表感想,情不自禁说了一大堆...至于关联性其实就是老詹生涯比赛排名是我网站的一部分,目的大概有以下几个方面吧:
排名算法
由于个人主观性太强,并且在排名的过程中标准可能也会发生一定的变化,并且想要看完1600多场比赛的所有细节也需要花费大量的时间。而用单纯数据统计的方式也难免陷入”Excel球迷“的问题,所以在此次排名中采用黑盒模型 白盒模型 数据统计 个人主观四个方面综合评定,下面逐一介绍每种算法的计算方式。
黑盒模型自从18年Google发布Bert之后,NLP的研究几乎进入了一个新的阶段,各种预训练模型层出不穷(XLNet,Ernie,RoBerTa,GPT...),而比赛的过程描述和赛后新闻其实就能够比较好的贴合到这个场景,让神经网络模型自己去学习到“助攻”、“三分”、“绝*”之间的差别。在数据标注方面,我对具有代表性的比赛进行了正负样本标注(如16总决赛G7和2004年12-30日对火箭的比赛就是两个极端),将问题转化为一个NLP的回归问题,当然为了应对数据不均衡以及标注数据较少的问题,还引入了一些预处理和特征提取方面的模型,在此就不加以赘述了。
白盒模型虽然目前CV和NLP等领域基本是深度学习的“天下”,但在数据挖掘领域传统机器学习还是有一席之地。标注数据和黑盒模型一致,在特征方面主要选择了比赛中各项统计数据:球员基础数据和高阶数据、球队比分、比赛过程记录。对类别特征进行分词后转化为tf-idf向量,之后将所有数值化特征放入LightGBM模型中训练。
数据统计目前NBA有很多高阶数据统计,有一些甚至涉及到详细对位等数据,我这并没有对应的原始数据信息。也就导致了上述机器学习模型存在一定的缺陷,所以这里也加入了对基础数据、高阶数据和球队数据的加权求和。
个人主观虽然在大部分情况下主观在排名中起到的不是积极作用,但在某些情况下却是不可或缺的。例如对于16年中决赛,即使各项数据都表明勒布朗在G5的表现好于G7,但在此榜单中,G7的排名必定高于G5。比赛也是因为有了人,才有了意义,而不只是冷冰冰的数字而已。所以在上述3个模型排名之后,我会主观的对排名进行修正(当然,这也可以理解成是模型先天输入的不足决定了上限)。所以在部分排名中可能含有我主观的情感。
排名
比赛信息中故意隐去了勒布朗的数据,是希望能够一起丢掉冷冰冰的数据,关注场上的表现和精神力量带给我们的感动~
1. The Block,历史唯一总决赛惊天逆转比赛信息:2016总决赛G7对战勇士
视频地址:
比赛信息:2007东部决赛G5对战活塞
视频地址:
比赛信息:2012东部决赛G6对战凯尔特人
视频地址:
比赛信息:2013总决赛G7对战马刺
视频地址:
比赛信息:2018东部决赛G7对战凯尔特人
视频地址:
比赛信息:2016总决赛G5对战勇士
视频地址:
比赛信息:2018东部决赛G6对战凯尔特人
视频地址:
比赛信息:2016总决赛G6对战勇士
视频地址:
比赛信息:2015总决赛G2对战勇士
视频地址:
比赛信息:2018总决G1对战勇士
视频地址:
写在后面
目前只放出来10场比赛并不是我故意吊胃口,而是整体的入围比赛已经确定,但具体的位次排名还在纠结的调整中,而且每场比赛的录像等相关收集工作也会花费一点时间。最后也放一些目前正在写的网站的一些截图吧,也希望自己能够尽快完成这个心愿...
欢迎大家通过私信、公众号(勒布朗百科)、邮件(me@lbj.wiki)和我一起讨论篮球、开发、算法之类的问题~
,Copyright © 2008-2022 秒下下载站
m.down10s.com .All Rights Reserved