前阵子熬夜看欧冠,利物浦 3-0 击败巴萨晋级决赛,赛后一个同为球迷的朋友问我“现在大数据能分析足球比赛的胜平负或者大小球吗?”
我一听,没有做很肯定的回答。早些世界杯的时候,百度体育运用大数据的技术预测过,关注过的朋友都知道,准确率不理想。后来我仔细的想了想,任何数据,你只要去挖掘,绝对是有价值的,足球赛事的数据也一样。由于之前自己也买过足球财票,北京单场、混合过关、任九都玩过,对赔率、亚盘稍有了解。这几天自己写了个爬虫,把近十年欧洲五大联赛足球的赛事数据爬了下来,包扣欧赔、亚盘、大小球、比分数据。
大数据的技能
数据收集: ETL东西担任将散布的、异构数据源中的数据如联系数据、平面数据文件等抽取光临时中间层后进行清洗、转化、集成,最终加载到数据仓库或数据集市中,成为联机剖析处理、数据发掘的根底。
数据存取: 联系数据库、NOSQL、SQL等。
根底架构: 云存储、散布式文件存储等。
数据处理: 自然言语处理(NLP,Natural Language Processing)是研讨人与核算机交互的言语问题的一门学科。处理自然言语的关键是要让核算机”了解”自然言语,所以自然言语处理又叫做自然言语了解也称为核算言语学。一方面它是言语信息处理的一个分支,另一方面它是人工智能的中心课题之一。
核算剖析: 假设查验、显著性查验、差异剖析、相关剖析、T查验、 方差剖析 、 卡方剖析、偏相关剖析、间隔剖析、回归剖析、简略回归剖析、多元回归剖析、逐步回归、回归猜测与残差剖析、岭回归、logistic回归剖析、曲线估量、 因子剖析、聚类剖析、主成分剖析、因子剖析、快速聚类法与聚类法、判别剖析、对应剖析、多元对应剖析(最优标准剖析)、bootstrap技能等等。
数据发掘: 分类 (Classification)、估量(Estimation)、猜测(Prediction)、相关性分组或相关规矩(Affinity grouping or association rules)、聚类(Clustering)、描绘和可视化、Description and Visualization)、杂乱数据类型发掘(Text, Web ,图形图像,视频,音频等)
代码片段:
String url="http://xxxx.xx/";//想采集的网址String refer="http://xxx.xx/";URL link=new URL(url);WebClient wc=new WebClient();WebRequest request=new WebRequest(link);request.setCharset("UTF-8");request.setProxyHost("x.120.120.x");request.setProxyPort(8080);request.setAdditionalHeader("Referer", refer);//设置请求报文头里的refer字段设置请求报文头里的User-Agent字段request.setAdditionalHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");//wc.addRequestHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");//wc.addRequestHeader和request.setAdditionalHeader功能应该是一样的。选择一个即可。//其他报文头字段可以根据需要添加wc.getCookieManager().setCookiesEnabled(true);//开启cookie管理wc.getOptions().setJavaScriptEnabled(true);//开启js解析。对于变态网页,这个是必须的wc.getOptions().setCssEnabled(true);//开启css解析。对于变态网页,这个是必须的。wc.getOptions().setThrowExceptionOnFailingStatusCode(false);wc.getOptions().setThrowExceptionOnScriptError(false);wc.getOptions().setTimeout(10000);//设置cookie。如果你有cookie,可以在这里设置Set cookies=null;Iterator i = cookies.iterator();while (i.hasNext()){wc.getCookieManager().addCookie(i.next());}//准备工作已经做好了HtmlPage page=null;page = wc.getPage(request);if(page==null){System.out.println("采集 "+url+" 失败!!!");return ;}String content=page.asText();//网页内容保存在content里if(content==null){System.out.println("采集 "+url+" 失败!!!");return ;}
有了数据就有了分析的支撑点,这几天把这些数据好好了研究了下,后台通过编写模型规则,逐步的做了验证,发现有很多赔率组合打出来的赛果都很接近,也就是我们常说的大概率赛果,显然大数据是能分析出足球赛事的大概率赛果的。由于预测分析准确率高的赔率组合很多,不一一说明,这里我只举例一种大概率分析组合,分享给有缘人。为此我还用java写了一个小程序软件,软件截图如下:
例子1
18-19赛季意大利足球甲级联赛第30轮 比赛时间:2019-04-04 03:00
热那亚 VS 国际米兰 最终比分0-4 足球大小球方面打出了大球
首先从mysql中可以看到竞菜官网与威廉希尔的欧赔初始赔率如下
从上图可以看出,竞菜官网的初始胜赔平赔负赔均低于威廉希尔的胜赔平赔负赔,符合上述我们说的足球大数据胜平负分析法。我们上述说到,符合此模型的比赛,大数据分析预测出的赛果是 客队不败,从赛果中我们发现90分钟结束,最终比分0-4,国米果真不败。
例子2
18-19赛季意大利足球甲级联赛第35轮 热那亚 VS 罗马 比赛时间:2019-04-04 03:00 最终比分 1:1
从上图可以看出,竞菜官网的初始胜赔平赔负赔均低于威廉希尔的胜赔平赔负赔,符合上述我们说的足球大数据胜平负分析法。我们上述说到,符合此模型的比赛,大数据分析预测出的赛果是 客队不败,从赛果中我们发现90分钟结束,最终比分1-1,客队罗马果真不败,大小球方面打出了小球。
这里就不一个个验证了,我统计了一下这个赛季意甲这种模型组合一共有8场比赛,赛果客队全部保持不败,大家有兴趣的可以去验证一下。
项目地址:GitHub - gap12521/ZDZW: ZDZW项目全称走地之王,历经3年完成的足球比赛走地大球预测项目。项目结合大数据+机器学习,不断摸索开发了一个程序。程序根据各大公司走地赔率多维度预测足球比赛进程。机器学习用的是自己建立的“三木板模型”算法,已在国家期刊发表论文并被万方数据库收录。目前整体准确率可达70%,最主要推荐指数都在2.1以上,不推荐任何蚊子肉。该项目在自己创建的微信群里已经吸引了很多粉丝,每天均有大部分人根据预测结果参考投注竞彩,参考的人都获得了大量的收益。 现在想通过认识更多的有识之士,一起探索如何将项目做大做强,找到合伙人,实现共赢。希望感兴趣的同仁联系本人,微信号(x40288978)。公众号(走地之王)小程序(走地之王),每天比赛密集的时候都有程序自动预测发布在小程序里,可免费参考。ZDZW项目全称走地之王,历经3年完成的足球比赛走地大球预测项目。项目结合大数据+机器学习,不断摸索开发了一个程序。程序根据各大公司走地赔率多维度预测足球比赛进程。机器学习用的是自己建立的“三木板模型”算法,已在国家期刊发表论文并被万方数据库收录。目前整体准确率可达70%,最主要推荐指数都在2.1以上,不推荐任何蚊子肉。该项目在自己创建的微信群里已经吸引了很多粉丝,每天均有大部分人根据预测结果参考投注竞彩,参考的人都获得了大量的收益。 现在想通过认识更多的有识之士,一起探索如何将项目做大做强,找到合伙人,实现共赢。希望感兴趣的同仁联系本人,微信号(x40288978)。公众号(走地之王)小程序(走地之王),每天比赛密集的时候都有程序自动预测发布在小程序里,可免费参考。 - GitHub - gap12521/ZDZW: ZDZW项目全称走地之王,历经3年完成的足球比赛走地大球预测项目。项目结合大数据+机器学习,不断摸索开发了一个程序。程序根据各大公司走地赔率多维度预测足球比赛进程。机器学习用的是自己建立的“三木板模型”算法,已在国家期刊发表论文并被万方数据库收录。目前整体准确率可达70%,最主要推荐指数都在2.1以上,不推荐任何蚊子肉。该项目在自己创建的微信群里已经吸引了很多粉丝,每天均有大部分人根据预测结果参考投注竞彩,参考的人都获得了大量的收益。 现在想通过认识更多的有识之士,一起探索如何将项目做大做强,找到合伙人,实现共赢。希望感兴趣的同仁联系本人,微信号(x40288978)。公众号(走地之王)小程序(走地之王),每天比赛密集的时候都有程序自动预测发布在小程序里,可免费参考。https://github.com/gap12521/ZDZW