时下大数据是一个时髦的词汇,前几天在朋友圈里看到一篇《某电商文胸数据:A少了C多了》,文中有数据显示,某省已经摆脱了胸部最小的省份等等。这篇东西对普通人来说可以当作花边了解一下,增加点茶余饭后的谈资,对商家来说则是制定商业计划的风向标。
经历了2014巴西世界杯,大数据在博彩中的运用也越来越受到重视。上周末新赛季的英超(微博 专题) 联赛已经揭幕,10场比赛主队仅有阿森纳(官方微博 官网 数据 )和利物浦(官方微博 数据) 两强收获3分,8支客队保持不败(2平6胜),多少让人感觉一丝冷意,尤其是斯旺西在梦剧场让踌躇满志的范加尔蒙羞。
其实首轮这个数据,多少也是上赛季整年数据的一个缩影。从数据上说,13-14赛季是一个不寻常的赛季,有两大整体特征。
1、 平局概率只占到20.5%,相当于每5场才有1场平局,一轮维持在2场平局左右。这个比例是英伦顶级联赛自58-59赛季以来,第二低的。这也就意味着上赛季喜欢买高平赔的买家可能会亏本。在50年代,充斥着高入球数,场均在3球以上,平局少也在情理之中。
2、 客场胜率创新高,达到32.4%。原先最高的客场胜率是创造于遥远的46-47赛季,尘封了65年之后再在11-12赛季被打破——30.53%,但仅隔 了两个赛季这个数字又被提高了将近2个百分点。三年内,客场胜率两创新高,对于喜欢博客胜高赔的朋友,可以持续关注一下新赛季英超的进展。
种种迹象、数据都暗示,过去的这个13-14赛季都是极不寻常的一个赛季,喜欢用数学概率模型来预测英超比赛的资深玩家不得不面对一个问题:这 是一个新的英超时代开始?还是只是昙花一现、偶尔为之?如果简单地认为是后一种,那么新赛季也必须对英超的数据统计保持警觉,如果依然用过往的数据模型, 那么恐怕会有风险。
仅仅从一个英超赛季——虽然多达380场比赛,在英超漫长的历史长河里,也只是一个小小的样本,并无足够的说服力证明新时代的到来。但是在作出准确的判断之前,这样一个迹象我们不可忽视。
足球是一项进步和发展的运动,自从1888年引入足球联赛赛制以来,期间也发生着多次规则变动,每一次改变都产生了划时代的影响。不过和篮球、 橄榄球等运动项目比起来,足球规则的修改更加谨慎,比如球门的扩大立马就被否决,一个球就是得1分,不因射门位置在禁区内外而产生不同的分值,等等规则。
巧合的是每一次大的规则变动,都是从世界杯等大赛开始试行。比如增加互射点球决胜、突然死亡法、金球银球制胜等等。不过这多半也是因为杯赛必须有一个队晋级,一个队淘汰。作为足球的主体——联赛,最基本的规则上下半场45分钟,从1888年开始沿用至今。
足球规则的修改一方面会对运动本身产生较大的影响,另一方面有许多界定方面的困难,甚至永远会存在争议。比如1925年修改的 越位规则,恐怕是迄今为止最影响足球运动的规则修改之一,他改变了足球比赛的场均进球数等大数据。当时判定一名球员是否越位,是看他是否处于对方半场,且 比皮球和第3位对方球员更接近底线。
当时的诺茨郡和纽卡斯尔都十分擅长利用这种规则,他们更加地压缩阵型,比赛被迫地集中在中线狭长的两侧,比赛变得沉闷也就不足为奇了,于是观众 数量日趋减少。名记乔纳森-威尔逊在卫报写道:“1925年的2月,纽卡在布里打出了赛季第6场0比0,也创造了不可思议的场均2.58的低入球数(在当 时)。”那个时候的英甲462场比赛,只诞生了1192个进球。足总意识到需要改变,把“第3位对方球员”改为“第2位对方球员”,这个越位的界定标准就 一直沿用至今。
规则改变之后,效果是立竿见影的,第二个赛季场均进球高达3.6球,增幅43%。进球数从1192上升到1703个。0比0的场次从39场减少 到15场。最擅长利用原先越位战术的诺茨郡,从上一个赛季的第9名,到第二个赛季干脆直接降级。纽卡斯尔则选择了改变,选择了适应新规则,于是第二个赛季 依然停留在积分榜上半区。
一般而言,大数据变化都会有一个可识别的根本原因,然后才能重新建立新的模型。新时代的足球变化,影响着大数据变化,这些可识别的根本原因大多数是球队战术上以及风格上的微妙变化。不再是生硬的规则改变。
从二战后开始算,英格兰(微博)足球赛季不间断地进行了68个年头,深究其中的顶级联赛,大约可以划分为6个时代。
1947-1950:战后的前22年里,联赛的标签就是进球数多,场均3.28个。而战后刚刚恢复的4个赛季里,还有一个特点就是球队很难捉摸,发挥极不稳定,导致场均进球从2.7到3.3不等。
1950-1968:4年的适应期后,这个时候各队趋于稳定,18个赛季里基本上场均进球都在3个以上。57-58和60-61这两个赛季是特例,场均超过了3.75球。然后从60年代中期开始,这个数字就不再往上涨了。
这段时间内,造越位战术开始风行,区域防守在这个时候首创,球员的营养跟上,体能训练得到加强,对抗变得更加激烈。换人规则也对此产生影响,球员可以在90分钟内保持较高的竞技水准。
1968-82:从65-68开始,场均进球的下降看得非常明显,3.15、3.0、3.03个。68-69赛季只有2.63球,下滑了13%。这期间场均进球基本上稳定在2.56到2.66个,极端最低的有过2.40个,
1982-86:净胜球的概念在这个时候引入,尽管他的影响力还没有现在那么大。这4年间,场均进球均超过2.70,很接近3球的时代,也超过了69年以来的任何一个赛季。
1987-2009:进球数上升趋势遭到遏制,86-87只有2.63个,直到2009这期间场均接近2.6个。99-2000的2.79个是期间最高值,而2007年的2.45则是低谷。应该说,英超概念的引入,对进球数的影响似乎并不大。
2009:这一年是一个特例,可以看做是英超顶级联赛一个新时代的开启。场均进球数达到2.79个,此后再也没有低于过2.77个。
之所以这么说,是因为我们可以看到,从60年代进球数呈现下降趋势以来,单个赛季的进球数从未超过过去10年的平均值达7%之 多。然后从10-11赛季开始,呈现了新的变化。对于足球数据建模的人群来说,需要做出判断,是一个新秩序的建立,还是短期现象。82-86的四年间,曾 被认为是时代的开始,但最终被证明只是短期存在而已。一旦新的趋势起来了,那么怎么都得维持若干个赛季。
进球数上升,一般而言会导致平局场次的降低。在场均超过3球的年代,平局概率大约在22.8%左右。只有52-53赛季平局率略高25.1%。最明显的莫过于1969年,场均进球下降了0.4个,平局则猛涨至30%,当时是历史新高。
现在,我们处于一个高进球、低平局的时代,因此对应的英超模型也得适应新的趋势。资深玩家们的模型、思维、分析方法等等,如果跟不上英超变化的节奏,那么会影响到命中率。上赛季,平局出现概率仅为20.5%,低于赛季初的预期值25.5%。
还有重要的一点,进球数和平局数成反比,并不是绝对的。假设关联度为100%,那么从1947年开始,两者关联度为71%。80年代末,这个关联度曾达到99%,在过去5个赛季这个关联度仅为62%。
关于这个趋势,还有值得关注的一点是客队的表现。历史数据显示,自1947年以来,客队的平均胜率在25%左右。主胜和平局对应的分别是49%和26%。前英超时代,客胜概率大约在24%左右,进入英超时代则上升至27%,并且主队优势正逐渐被消耗。
过去3个英超赛季,客胜率已经达到了30.3%,这是创纪录的一个客胜概率,而客队场均进球数达到1.22个,这在英格兰获得世界杯之后就未曾出现过的情况。
主队优势在过去,确实是一个不可或缺的优势,但现代足球,这个优势已经逐渐被淡化。球员坐着老旧巴士、长途跋涉、又累又疲惫的情况已经一去不复 返。如今,奔赴客场用高级商务巴士、飞行坐头等舱也不在少数,甚至有提前一、两天抵达备战的情况,然后还下榻在五星级酒店。球迷乐忠于自拍、喝可乐啃汉 堡,来享受比赛,而不是像过去那样对主队做出种种敌意的举动来干扰对手。尤其在最顶级的对抗中,主客队的优势正逐渐趋于平衡,而且有进一步缩小的可能性。 从2011年以来,主队45.3%的平均主胜也创下了历史新低。
上面的这些观察所得,包括英超新时代的开启,在新赛季有望被证明是具有实际借鉴意义,但也可能是虚惊一场。足球是一个车轮子,永远在像前滚动, 但有些进化或者变迁并不容易被发现,因此,在我们大额度地投注于英超的时候,必须留意这些新的变化。还是要持之以恒地收集数据,不断考察历史数据,对原有 的投注方法、模型等等不断地调整,跟上时代节奏。