你要玩数据(甚至大数据),从来离不开先学会把大量的原始数据清洗一番。 如果你喜欢观看足球比赛,也可以自己通过数据工程去分析足球比赛。大概包括以下几个技能:抓取原始数据清晰数据创建数据集写一些Python代码去生成可视化数据图
国外的 Hugo Mathien 通过对一批欧洲职业足球统计的原始数据进行清洗,并把一些洞察结果分享出来。他使用的数据包含了2008年至2011年的25,000多场比赛,来自11个国家的超过10,000名球员,以及多达10家数据提供商的投注赔率。
过程中,Hugo 使用Python Scrapy从多个来源中提取数据,克服了数据完整性问题,并手动构建了数据集 - 数据集采用SQL数据库的形式。这个数据集包含比赛统计,即分数、角球、犯规等、球队的出场阵容/阵型,并收录了各个球员名字与他们在每次比赛时在球场上的位置。
数据集的原始数据中也导入了来自EA Sports足球游戏的数据,比如足球员的35个属性数据。举个例子,如果某个球员在一段时间内表现不佳,他在国际足联中的统计数据会受到影响,通常在数据集中会看到相同的更新。
案例1 - 大多数欧洲顶级联赛正在变得更加可预测,随着一支或两支球队(意甲的尤文图斯、法甲的PSG巴黎圣日尔曼、西甲的巴萨、皇家、德甲的拜仁、多特蒙德)的统治地位的增加。令人惊讶的是,英超联赛可能变得不那么可预测,比如2015-2016赛季的莱斯特城。以下图为 Hugo 从数据中发现的规律:
这是Yoni Lev 的 The Most Predictable League (最可预测的联赛)的原代码:
The Most Predictable League
案例2 - 主场胜利的概率远远超过了客场胜利。对于每个足球迷来说,这是直观的,在主场比赛的球队总是有优势,但我很惊讶地看到这是真的。一些联赛有近50% 的主场胜利概率和25% 的主场平局概率 – 即是主场只有25%的概率会败。
案例3 - 数据中发现,经常改变出场比赛阵型的球队获胜概率较低。我认为是因为当一队球队有一个长期使用习惯的阵型后,比赛时就能表现出稳定性,球员就会磨合出很好的默契。这里举些例子:巴塞罗那长期使用的4-3-3阵型,意大利一般经常使用的的3-5-2阵型。
Hugo 以他的经验告诉我们,创建数据收集是一个漫长而累赘的工作。他已经把数据集开源了分享,希望有兴趣的开发者/数据工程师参与,并一起继续运营下去。原因是这样的:他希望大家通过添加更多国家的联赛、国际杯赛到数据集,去给这个数据集增量,并保持数据集对新比赛数据的及时更新。
对于这个数据集以后能提供的贡献:Hugo 希望能准确的预测未来比赛的结果与赔率!
假如对数据集有兴趣,文章里的数据源是Hugo通过Github上这个Scrapy开源项目获取到的:http://github.com/hugomathien/football-data-collection/tree/master/footballData
假如你按以上的描述操作一篇,会发觉你已经在开始走大数据工程/分析角色的路。
假如你希望未来进入大数据工程/分析行业,IBM的一些调研数据显示(偏美国市场的调研,但肯定能参考):现时,数据科学家的平均工资是105,000美元/年薪;数据工程师的平均工资是117,000美元/年薪;机器学习工程师的平均工资是114,000美元/年薪。现时,59%的数据科学/分析工作都集中在几个行业,包括金融、保险、专业服务、IT。现时,数据科学/分析工作的空缺达到2,350,000个;到了2020年,空缺会达到2,720,000个。最需要的前五位技能是 MapReduce、Apache PIG、Machine Learning(机器学习)、Apache Hive和Apache Hadoop。
既然讲到足球,我们这里插一个话题。喜欢踢足球,一般会往职员足球联赛发展成为职业球员,当年的职业足球员在自己的足球生涯后会退休,一些会成为教练,当中有些执教得优秀的会升级成为职业联赛的主教练/助教练。
讲到职业联赛的足球教练,大家可能会直接联想到一些60-70岁的老头,比如:执教过英超曼联 (Manchester United) 26年的前主教练费爷(Sir Alex Ferguson)。2010年南非世界杯带领过英格兰国家队的意大利人主教练Fabio Capello,也是AC米兰(Milan)在1994年夺得欧冠的前主教练。2006年德国世界杯替意大利国家队赢得冠军的Marcello Lippi,也是尤文图斯(Juventus)在1996年夺得欧冠的前主教练。
但我们重点并不是要讲老教练。
这是一个女数据分析员,成为男子足球队主教练的真人故事,是个高学历的男子足球女教练的神奇经历。
她叫做陈婉婷,花名(昵称)“牛丸”,现时是香港东方足球队主教练。她是个女生。
她在高中时迷恋前英超足球明星大卫•贝克汉姆(David Beckham),因此爱上足球,开始踢足球。
她高中虽然踢足球,但学业成绩并不差,她当时的香港会考成绩获得2A、1B累积。她考进香港中文大学,主修读地理及资源管理学系并在2010年毕业,然后继续在中文大学医学院里深造,取得运动医学及健康科学理学硕士。
2013年毕业后,她加入香港本土的飞马足球队任分析员工作。
她陆续考到亚洲足协A级教练及亚洲足协五人教练的资格,先后在飞马足球队、南区及太阳飞马担任助教练。也执教过香港五人女子队及香港女子青年队。
后来她转到了东方俱乐部一线队担任助教。接着很快,原来的香港东方足球男子队主教练杨正光离职并前往中甲联赛梅州五华俱乐部担任助理教练。在2015年底,陈婉婷被提升成为香港东方足球男子队的主教练。
她带领香港东方足球队夺得香港超级联赛冠军(2015-2016年球季),成为世界足球坛第一位带领男子足球队赢得足总成员国的顶级联赛冠军的女教练。上一次东方足球队获得香港顶级联赛冠军是1994-1995球季(21年前)。她这时候才27岁,比自己球队里的一些球员还要年轻。 2016年5月,陈婉婷这神奇的经历被列入了健力士世界纪录。
2017年2月份,她成为第一位足球队参加亚冠杯的女教练。到了第二场比赛(3月份),东方队与日本球队川崎前锋打平1-1,替香港足球会取得历史上在亚冠杯赛事中的第一个进球和第一分。
陈婉婷未来打算到海外进修更高级的职业教练课程,在进修期间将会留任东方足球教练团成员,为球队提供技术分析。
过去我写过的一本SEO书ChinaMobileSEO.com
假如对数据分析技术有兴趣,推荐阅读我写的书,可以免费网上阅读数据分析技术白皮书:中文版:Analytics Book 中文版 - 数据分析技术白皮书英文版:Analytics Book - Gordon Choi's Analytics Book繁体版:Analytics Book 繁體中文版 - 數據分析技術白皮書
需要联系,我的个人微信号:gordon-choi
评论列表