世界杯押注还得看技术流,这个预测AI把赔率也算上了

胡澎 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

世界杯小组赛将收官,你还依然信AI吗?

冷门频出,黑马击败豪强。不少AI模型始料未及。

到底还能不能愉快找到科学规律?或者说足球比赛乃至其他竞技体育赛事,数据科学家在AI加持下,究竟能做到多大程度的预测?

瓶颈在核心数据匮乏

如果让谢波回答这个问题,他会告诉你:“单利用神经网络模型对世界杯的胜负、比分进行预测,存在一定难度。”

谢波是北京猜猜科技CEO,他认为世界杯预测难,最根本的原因是核心数据的匮乏:比如国家队之间的历史交战记录非常稀疏,无法提供足够多的信号支持预测的结果。

以本届世界杯开幕战俄罗斯对阵沙特阿拉伯的比赛为例,两队上次交手是在1993年的一场友谊赛,距今已经25年。神经网络模型很难在这样的数据基础上发挥它的威力。

但球赛预测也不是完全毫无办法,在动手实践后,谢波团队发现,如果把包括五大联赛在内的职业联赛当做预测样本,效果将大大不同。

五大联赛指的是欧洲五大职业足球联赛,分别包括英超、西甲、德甲、法甲和意甲联赛。这些联赛有比较完整的商业化体系,也有比较领先的数据采集和数据流转的商业化机制。

所以第一步,获取数据。

相对挑战的是,体育行业的数据相对金融等其他领域,具有来源众多、标准各异、置信度参差不齐等特点,导致很难从某个权威的数据公司获取到一份全面、准确并且标准化的数据。

举个例子,描述一场比赛的赔率数据和基本面数据存在于不同的来源。不同来源的数据需要通过一个非常严密数据流程进行关联和加工,仅仅队名这个最简单的字段在不同来源的叫法都不一样,任何一个小的数据偏差或者丢失都会导致最终神经网络预测结果偏差,影响准确率。这里面的技术活非常的具有挑战性。

此外,还要考虑足球比赛的实时性。所以在已经积累了欧洲主流联赛近10年的数万场比赛历史数据后,猜猜科技的模型还加入了百万量级的赛中实时数据。

然后进入第二步,预测回报率导向。

体育竞猜领域有几个常见的误区。比如,比赛的赔率是博彩公司通过对于比赛本身的判断以及大众投注的选择等因素,综合考虑后给出的比赛投注回报。

例如博彩公司开出主队赢2.25的赔率,其意义就是投注者如果投主队获胜,且比赛结果真是主队获胜,则投注者可以获得其投注额的2.25倍的回报。

而对比赛结果进行一定的判断,给出一定的概率估算,这里预测的是概率。

在此基础上,更为重要的一个概念是价值回报率,该指标则是综合考虑了赔率和结果概率,对于每场比赛的胜负平等结果,都是其对应赔率和预测概率的乘积。

价值回报率可以认为是赔率的可套利空间,或者说是赔率的期望回报值。

于是从预测回报率的角度出发,公式如下:

Returns = Max { Σ Odds | Pro, Val, α } ,其中Odds为预测结果的赔率,Pro为预测的概率,Val为预测的价值回报率,α为选择的策略。

紧接着,就可以看看这个专为预测而打造的模型了,分为两部分:

基于深度学习技术的比赛预测模型,以及基于价值回报率的投注策略模型。

一个个看。

基于深度学习的比赛结果预测模型

深度学习技术作为传统神经网络算法的延伸和扩展,当前在图像识别、语音识别、自然语言处理等领域获得了巨大的成功。

将深度学习技术引入到足球比赛的结果预测中,可以综合利用历史的比赛记录,以及各种实时的数据信息,进行训练和计算。经过数万场比赛的洗礼,庞大数据量的分析,以学习掌握决定胜负的关键因素。

无论是赛前球员的伤病,还是教练的奇招,众多的线索都可以从海量的数据中能获得“蛛丝马迹”,帮助模型得到准确的预测结果。

640?wx_fmt=png

 图:基于深度神经网络的比赛预测

当前猜猜科技的深度学习模型通过对过去两万多场比赛的训练,利用百余维特征,包括球队的基本面(射门数、抢断数、助攻数、控球率等等),几十个渠道(欧赔、亚赔等)的赔率信息,以及历史上的战绩。

经过神经网络的编码和序列解码,以及有效的注意力机制的引入,可以对比赛结果进行准确的预测(包括结果和比分)。

进一步,团队后续还利用多组子模型进行多层次的结果融合,获得最大的性能收益。当前最优的模型可以稳定的达到68%的预测准确性。已经超过了人类专家的顶级水平。

引入价值回报率的最优投资组合的搜索

在已知结果概率和赔率的情况下,选择哪些比赛进行投注,投注的比例又是如何,这是投注策略所关注的问题。

不同的预测概率,会有不同的价值回报值,根据不同的价值回报率,我们会采取不同的下注策略,这就涉及到一个最优投资组合的搜索问题。

搜索的空间是根据赔率,预测的概率,价值回报率以及不同的预测模型等组合而成,如何在百万计的投资组合中进行最优搜索,成为核心问题。

640?wx_fmt=png

 图:基于遗传算法的参数组合搜索

猜猜科技利用剪枝优化的策略,结合遗传算法等多种搜索策略,对最优参数空间进行检索。

遗传算法等并不基于梯度进行计算,算法本身能扩展到巨大的参数空间。重点设计并优化算法的初始条件、选择运算、交叉运算以及变异运算的关键步骤,并且将启发式的裁剪策略运用在遗传算子中,最大限度优化搜索的空间和时间消耗,最终获得最高投资回报比的投资组合参数。

640?wx_fmt=png

为了测试这套模型, 猜猜科技对 2012 年到 2018 年期间 2 万场足球比赛进行了模拟训练,在测试集300场比赛进行测试,回报率为41%。

在足球领域,这个回报率已非常不俗。

背后团队

最后,介绍下该模型的核心打造团队——猜猜科技,CEO谢波和CTO郭杨,和包括首席科学家在内的神经网络团队,均来自“西二旗”,是前百度核心业务部门的技术和产品骨干。

CTO郭杨透露,打造该预测模型,只是因时制宜的牛刀小试,希望打造一个类似AlphaGo的围棋培训和教学工具,最终目的是能够帮助国内的彩民群体提升他们的赛事分析能力和投注技巧。

但只是一个机器辅助决策类的应用,后续更广泛的场景,是希望将能力应用到更多有意思的领域,比如电子竞技、创造101选秀竞猜、加密货币价格走势中……

加入社群

量子位AI社群18群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot8入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot8,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33614.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

足球大数据预测实战之高胜率盈亏条件验证及优化算法

上周接到一位老用户,之前为他做过数据验证,给出了组合条件下的胜率回查,结果有些难看啊。这期主要介绍常用人工智能算法中在足球预测中的应用,以及数据验证后的实际效果。 由上图为用户依据条件查证后的比赛场次和概率统计。可以看…

苹果手机朝下无法唤醒Siri,这个解决方法你知道吗

Siri对于苹果手机的用户来说是一个非常大的吸引点,能够指挥苹果手机中的Siri去做很多事情,如:放一首歌曲、百度一些知识点、这句话用英语怎么说等等功能。但是,不知道你们有没有发现一般我们苹果手机朝下无法唤醒Siri。是不是觉得…

如何解决Siri无法正常运行的问题

Siri 是一位智能助理,能帮助你在 Apple 设备上更快速轻松地处理各种事务,甚至不用等你开口。 Mac 上的 Siri 可帮助您执行日常任务,如获取问题的快速***、播放音乐等。您可以询问 Siri 几乎任何内容,Siri 都可以为您执行或回答您的问题。如果在使用 Siri…

【推荐实践】多场景多任务学习在美团到店餐饮推荐的实践

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 ChatGPT团队背景研究报告 ChatGPT的发展历程、原理、技术架构及未来方向 ChatGPT使用总结:150个ChatGPT提示此模板 ChatGPT数据集之谜 …

倒计时3天!2023新榜AIGC生态大会看点剧透

倒计时3天!「AIGC赋能重塑内容生态」2023新榜AIGC生态大会将于7月14日在北京丽都皇冠假日酒店重磅登场。 内容行业正在步入AI时代。 AIGC(AI Generated Content,即人工智能生成内容)被认为是继OGC、PGC和UGC之后的新型内容生产方式…

携程平台增长部总经理王绩强:原生互联网企业正在经历一场数字升级丨数据猿专访...

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 以大数据和人工智能为核心,众多新兴技术开始赋能数字营销。于是,智能营销已然从工具化走向了业务化。 如今,数字化营销已经成为了企业数字化转型中的重要一环。相较于传统营销逻辑&#x…

技术总监亲自上阵,手撸了个推荐系统!

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 从0到1详解推荐系统基础知识和框架 推荐技术在vivo互联网商业化业务中的实践.pdf 推荐系统基本问题及系统优化路径.pdf 大规模推荐类深度学习系统的…

融合GPT大模型产品,WakeData新一轮产品升级

近期,WakeData惟客数据(以下简称 “ WakeData ” )完成了新一轮的产品能力升级。就 ToB 企服公司如何融合GPT 大模型,WakeData 给出了自己的答案。 在2022年11月的产品发布会上,已传递出WakeData的“三个坚定”&#x…

借助chatGPT强大的源码理解能力,来快速学习elasticsearch 7.11.1整体源码结构(用chatGPT学源码太香了)

ES阅读学习源码的难处 es的源码非常之多。能够查阅的资料非常少。如果是我们一行一行的去扒着源码看,在我看来至少需要2年的时间,并且至少要耗费四分之一的头发。源码读起来很枯燥,特别是在我们一头雾水的时候。很容易产生放弃的念头。很少有…

大语言模型中的涌现现象是不是伪科学?

深度学习在理论上的孱弱一直被诟病,但科学史上存在大量先有应用再有理论的事例,而其中不能解释的重大实验现象往往预示着理论创新的契机。我们首先从现象出发,来看下LLM中最神秘的emergent ability,如图 上图中x、y轴分别表示模型…

自制开源的 Midjourney、Stable Diffusion “咒语”作图工具

本篇文章聊聊如何通过 Docker 和八十行左右的 Python 代码,实现一款类似 Midjourney 官方图片解析功能 Describe 的 Prompt 工具。 让你在玩 Midjourney、Stable Diffusion 这类模型时,不再为生成 Prompt 描述挠头。 写在前面 本文将提供两个版本的工…

【区块链技术社区】区块链微信群

磨链mochain社区-区块链技术讨论交流不定期进行线上的技术交流学习,技术分享。线下技术交流,成员主要在北京、上海、浙江、广东等地。欢迎:区块链技术大咖、区块链爱好者、区块链技术爱好者、想了解区块链技术的小白不欢迎:广告党…

区块链笔记:典型应用:数据资产、交易系统、即时通信、链上游戏、追踪溯源等

数据资产 1 ) 详解 这是区块链的一个比较核心的应用,对于软件系统或者说对于互联网系统来讲,对数据的处理、分析、计算,这些功能是属于比较基本的软件功能对于区块链来讲它的核心的功能是在于创新式的提供了一个原先各种软件都没…

靠谱的区块链应用到底是啥?通证啊!——第二次中关村-CSDN区块链开发技术沙龙【含PPT下载】

针对“通证”话题的多篇分析文章预热,本期沙龙在开始前就被区块链网友广泛关注。此次沙龙的参会者经过层层的严格筛选,才得以与众位大咖面对面沟通。 12月15日下午,中关村区块链产业联盟、CSDN、枫玉科技联合举办的区块链系列沙龙。来自中关村…

云图说丨不同区块链之间如何跨链交互?

本文分享自华为云社区《【云图说】第237期 不同区块链之间如何跨链交互?》,作者: 阅识风云。 可信跨链服务是基于一系列制定的可信区块链标准跨链协议,保证跨链交易全栈可追溯、可扩展性及可靠性等,助力不同区块链可…

知乎高赞 | 区块链是什么? (一)

首先不要把区块链想的过于高深,他是一个分布在全球各地、能够协同运转的数据库存储系统,区别于传统数据库运作——读写权限掌握在一个公司或者一个集权手上(中心化的特征),区块链认为,任何有能力架设服务器…

XuperChain 百度区块链简易学习帖

百度XuperChain基于Ubuntu系统从零开始到部署简单合约 环境配置go语言安装git安装客户端安装 启动私链基本操作命令1. 创建普通用户2. 创建合约账号3. 查询余额4. 转账5. 查询交易信息6. 查询block信息 网络部署(选择性阅读)1. 创建网络部署环境2. 配置种…

建议收藏,轻松搞懂区块链

未来已来,只是不均衡地分布在当下 大家好,我是菜农,欢迎来到我的频道。 本文共 5844字,预计阅读 30 分钟 区块链是近些年来最热门的前沿技术,被认为是未来十几年对金融、物联网、医疗等诸多领域产生最大影响的"…

都说区块链可信,到底信了个啥?

‍‍ 题图摄于北京二环路 【前言】不时有朋友向我询问某某区块链项目怎么样。我通常只给他们讲一点:要考察项目中区块链的信任体系。不管项目方说得怎样天马行空,看懂其中的信任机制,就基本可判断其项目的价值。 最近热门词汇层出不穷&#x…

如果你还不懂区块链那就out了(二)--区块链的演化及应用场景

前面我们介绍了很多区块链的知识,可能大家会有以下几个疑问: 1、区块链用于溯源,如果供应链上的参与方自己造假,在中途将实物替换掉,区块链宣称的不可更改不就无效了吗? 答:造假会有相应的惩罚措…