腾讯AI Lab绝悟团队夺冠Kaggle足球AI竞赛

感谢阅读腾讯AI Lab微信号第115篇文章。本文将介绍绝悟WeKick版本登顶首届谷歌足球Kaggle竞赛的内容。

Google Research 与英超曼城俱乐部在 Kaggle 平台上联合举办的 11v11 足球 AI 竞赛 Google Football 近日宣布最终结果:腾讯 AI Lab 绝悟 WeKick 版本(下称绝悟)以 1785.8 的分数获得冠军,且相比于其它队伍优势非常明显。

Kaggle 竞赛 google-football 排行榜前十名,来自 https://www.kaggle.com/c/google-football/leaderboard

比赛使用的 Google Research Football 环境,是基于开源足球游戏 Gameplay Football 开发的强化学习环境。由于其兼具挑战性和趣味性,一经推出便吸引海内外队伍踊跃参加,截至 12 月中旬,已经吸引了来自世界各地的 1100 多个团队,其中包含多支世界顶级学府和研究机构的科研强队。

今年 11 月 28 日,腾讯 AI Lab 宣布与王者荣耀联合研发的策略协作型 AI「绝悟」升级成了完全体,让 AI 掌握了所有英雄的所有技能。仅一个月后,「绝悟」又在竞争如此激烈的竞赛中以显著优势脱颖而出,足以证明「绝悟」工程开发实力和背后深度强化学习方法的优势。

Google Football 竞赛是什么?

Google Football 是基于全世界最受欢迎的体育运动「足球」打造的「11 个强化学习智能体的合作与对抗」竞赛。在竞赛过程中,其规则与普通足球比赛类似,比如目标都是将球踢入对方球门以及越位、黄牌和红牌规则。在具体细则上也有一些不同的之处,如比赛分上下半场(各 45 分钟,1500 步,两支球队各开球一次),游戏场景是完全对称的(所以没有左右换场的必要性)、没有替补球员、没有加时赛、进球多获胜(否则平局)等。

不同于常见足球电子游戏的统一调控式 NPC 球队,Google Football 竞赛的参赛球队中每个球员都各由一个单独的智能体控制,参赛团队需要实时选择并控制其中一个智能体,与其他内置智能体配合。因此,每个球员不仅需要观察对手的行为,还需要留意己方队员的情况。这需要非常复杂的团队协作和竞争策略。

举个例子,当对方球员控球时,己方智能体不仅要根据球场上双方球员的分布位置预测控球球员的下一步动作,还需要与己方球员协同如何合规地夺取足球的控制权。且由于球场动态瞬息万变,因此高速的实时决策能力也是必需的。

绝悟与其他AI配合传球

此外,从零开始完全采用强化学习方法来训练完整的足球AI实际上也相当困难。与MOBA游戏中不断有经济、血量、经验等实时学习信号不同,足球的游戏激励非常稀疏,基本只能依靠进球,而稀疏激励一直是目前强化学习一大难题。

实际上,正是由于足球运动团队策略的复杂性、多样性和高难度,AI 领域的先驱们很早就已开始尝试基于足球研究人工智能技术。机器人世界杯 RoboCup 在 1992 年应运而生,此后每年举办机器人足球比赛,一直延续至今。RoboCup 的目标是到2050年,机器人球队能胜过人类足球世界冠军队。然而直到今天,无论是在机器人运动仿真度上还是机器人团队决策能力上,进展依然缓慢,离目标还有很远的距离。只要看看 RoboCup 机器人摔倒的搞笑视频集锦就能明白这一点。

尽管如此,进步仍旧切实存在。得益于深度强化学习在游戏领域突飞猛进的发展,从 Atari 游戏到围棋再到多种不同的电子游戏,AI 智能体在不断的迭代演化中正变得越来越强大。此次夺冠的绝悟版本通过两项关键技术实现了优于其它竞争 AI 球队的优势。

WeKick vs SaltyFish(第二名)近期的一局比赛记录,成绩为 3:2

绝悟的夺冠秘籍

和大多数参赛队伍一样,绝悟也主要采用了强化学习和自博弈(Self-Play)来从零开始训练模型的方法。其训练的基础架构是基于「绝悟」完全体的架构迁移得到的,详情参阅《腾讯绝悟AI完全体限时开放体验,研究登上国际顶会与顶刊》。基于此,腾讯 AI Lab 又针对足球任务对该框架做针对性改进,使其能适应 11 智能体足球游戏训练环境。

为此,腾讯 AI Lab 部署了一种异步的分布式强化学习框架。虽然该异步架构牺牲了训练阶段的部分实时性能,但灵活性却得到显著提升,而且还支持在训练过程中按需调整计算资源。此外,由于 MOBA 游戏和足球游戏任务目标的差异,团队还在特征与奖励设计上进行了扩展和创新。这些改进加上关键性的生成对抗模拟学习(GAIL)方案和 League 多风格强化学习训练方案,最终铺就了绝悟的冠军之路。

架构概况

具体来说,该模型由一些密集层(每层 256 维)和一个 LSTM 模块(32 步,256 隐藏单元)构成。训练过程采用了一种改进版的近端策略优化(PPO)强化学习算法。学习率固定为 1e-4。参数更新则采用了 Adam 优化器。这套方案能实现非常快速的适应和迭代,且内存占用也较为合理。

在算法上,绝悟总体上采用了一种改进版 PPO 强化学习算法,这与不久之前发布的「绝悟」完全体的架构一致。简单来说,PPO 算法的思路在每个步骤计算更新时不仅会保证成本函数尽可能地小,而且还会确保与之前策略的偏差相对较小。这一策略能克服强化学习难以调试的缺点,在实现难度、样本复杂度和调试难度之间取得合适的平衡。

在价值估计上,采用了「绝悟」完全体的多头价值(MHV)估计方案,即奖励会被分解为多个头,然后再使用不同的折现因子聚集到一起。采用这一方案的原因是某些事件仅与近期的动作相关,比如拦截、越位和铲球;另一些事件则涉及一系列决策,比如进球。因此不同事件的奖励会具有不同的权重。

在特征设计上,研究者对标准的 115 维向量进行了扩展,使之包含了更多特征,比如队友与对手的相对姿态(位置与方向)、活动球员与足球之间的相对姿态、标记可能越位的队友的越位标签、红/黄牌状态等特征。这些扩展为训练速度带来了 30% 的效率增益。

除了人工设计的奖励,绝悟还采用了生成对抗模拟学习(GAIL),该方案利用了生成对抗训练机制来拟合专家行为的状态和动作分布,使其可以从其它球队学习。比如某个 AI 球队展现出的「反攻(counter attack)」策略就给研究者留下了深刻印象,即接球后退→传到守门员→守门员高传到前场。这是一种相对复杂的序列动作,难以通过人工方法定义其奖励;但使用 GAIL,绝悟可以成功地基于回放(replay)进行学习。然后,再将 GAIL 训练的模型作为固定对手进行进一步自博弈训练,绝悟的稳健性得到了进一步提升。

GAIL 的优势

(WeKick 的奖励设计综合了 Reward Shaping 和 GAIL 两种方案)

通过自博弈强化学习得到的模型有一个天然的缺点:很容易收敛到单一风格;在实际比赛的时候单一风格的模型很容易发生由于没见过某种打法而表现失常,最终导致成绩不佳。于是为了提升策略的多样性和稳健性,绝悟还采用了 针对多智能体学习任务的 League 多风格强化学习训练方案。

其主要流程可简单总结为先专精后综合:

1. 训练一个基础模型,具备一定程度竞技能力,比如运球过人、传球配合、射门得分;

2. 基于基础模型训练出多个风格化模型,每个模型专注一种风格打法;在风格化模型训练的过程中会定期加入主模型作为对手,避免过度坚持风格,丢失基本能力;

3. 基于基础模型训练一个主模型,主模型除了以自己的历史模型为对手以外,还会定期加入所有风格化对手的最新模型作为对手,确保主模型的策略具备鲁棒性,能够适应风格完全不同的对手。

内部能力评分系统显示,加入对手池训练以后的主模型,可以在基础模型的上提高 200 分,比最强的风格化打法高 80 分。

研究者认为,基于 League 的多风格强化学习和基于 GAIL 的风格学习方法是保证 WeKick 最终获胜的两大关键秘籍。当然,在「绝悟」框架基础上针对足球任务的一些改进设计也必不可少。

展望未来

绝悟 WeKick 版本的整体设计是基于「绝悟」完全体迁移得到的,然后针对足球任务进行了一些针对性的调整,这也证明了腾讯 AI Lab 开发的「绝悟」的底层架构与方法的通用性,可以预见这类方法未来还有望进一步迁移至机器人等更多领域,从而创造更大的实用价值。

从围棋 AI 「绝艺」到策略决策型 AI 「绝悟」,再到如今的 AI 足球队绝悟 WeKick 版本,腾讯 AI Lab 的深度强化学习智能体步步进化,逐渐向更复杂更多样化的问题迁移,其中的每一次进展都让我们离通用人工智能终极目标更近了一步。

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36170.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT挑起的这场AI竞赛,有一个肮脏的秘密

来源:WIRED 作者:Chris Stokel-Walker 编译:库珀 将大型语言模型(LLM)整合到搜索引擎中,或意味着 5 倍的算力增长和巨大的碳排放。 2 月初,微软和谷歌相继宣布对其搜索引擎进行重大改革。 这两家…

NCT全国青少年编程能力等级测试教程(图形化编程、Python语言编程)

图形化编程 Python语言编程 蓝桥杯STEMA测评-python真题讲解6 蓝桥杯STEMA测评-python真题讲解6_哔哩哔哩_bilibili 工橙院大豪猪 工橙院大豪猪的个人空间_哔哩哔哩_Bilibili 蓝桥杯青少组Python竞赛真题讲解 蓝桥杯青少组Python竞赛真题讲解_哔哩哔哩_bilibili 蓝桥杯第13…

Go C画图 CSP-J信息学奥赛 2023.03.02、03 测试题

一、单项选择题 (共10题,每题1.5分,共计15分。每题有且仅有一个正确选项。) 1.在二进制下,1011001 ( ) 1100110。 A.1011 B .1101 …

股票交易查询接口api源码分享

股票交易查询接口是一个股票分析的工具,投资折可以通过这个接口在股票的买卖过程中自己判断是否要做空,简单来说股票交易查询接口就用来判断股价上涨或者下跌以及投资亏损的分析工具! 那么在本质上来说股票交易查询接口其实就死是一个帮助投资…

微信小程序实现仿微信聊天界面(各种细节处理)

下面先来看看效果 为实现这样的效果,首先要解决两个问题: 1.点击输入框弹出软键盘后,将已有的少许聊天内容弹出,导致看不到的问题; 2.键盘弹出或收起时,聊天消息没有自动滚到最底部。 首先解决第二个问题…

小程序中如何实现即时通信聊天功能?

项目背景:小程序中实现实时聊天功能 一、服务器域名配置 配置流程 配置参考URL:https://developers.weixin.qq.com/miniprogram/dev/api/api-network.html 二、nginx中配置反向代理加密websocket(wss) upstream websocket{hash $remote_addr consiste…

微信小程序的测试方法,抓包,模拟

微信小程序的测试,抓包,模拟 不仅仅只是测试同学需要完整的对我们的程序进行测试,同时也需要我们的开发同学对如何进行微信小程序的测试有一定的了解,接下来,我们来对一些特殊场景的微信小程序进行测试。 目录 微信小…

如何在微信小程序里实现聊天室功能?

准备工作 下载环信 小程序demosdkgit clone https://github.com/easemob/webim-weixin-xcx创建一个文件夹,将 demo 中的文件 comps、images、sdk、utils 拷贝到新的文件,文件目录说明 集成 登录环信没什么可说的,这里选择的是使用 usernam…

具身智能,是机器人的“冷饭热炒”吗?

大模型正如火如荼,下一个AI风口就来了。 如果你关注2023世界人工智能大会等行业峰会,以及英伟达、微软、谷歌、特斯拉和国內科技大厂的最新发布会,除了“大模型”,应该会听到另一个高频词——具身智能。 所谓具身智能Embodied AI …

chatgpt赋能python:Python图片拼接:将多张图片拼接成一张大图

Python 图片拼接:将多张图片拼接成一张大图 在当今数字化的时代,图片已经成为了我们生活和工作中不可或缺的一部分。图片不仅可以记录生活的美好瞬间,同时也可以用于商业宣传、教育培训等方面。然而,在某些情况下,我们…

英伟达终于开源GPU内核模块代码

作者 | 钰莹,核子可乐 内容来源:infoq 近日,英伟达(NVIDIA)宣布,将 Linux GPU 内核模块作为开放源代码发布。早在几天前,NVIDIA 开始在 GitHub 上陆续公开相关代码,目前该项目已经…

2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片

2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片 英伟达核弹级GPU:800亿晶体管,20块承载全球互联网流量 2022年3 月 22 日,在英伟达 GTC2022 上,英伟达介绍了 Hopper 架构、H100 GPU、元宇宙、新型超级计算机、软件、数据中心等方…

最近火爆的英伟达数据中心GPU所有型号及参数汇总,含售价

关注、星标公众号,精彩内容每日送达 来源:网络素材 注:英伟达A800是NVIDIA公司生产的显卡,是为了解决美国商务部的半导体出口新规,以取代A100 GPU。 NVIDIA H100 CNX产品规格 ———— / END / ————

从英伟达 vs ATI的芯片大战看GPU前世今生

导读:本文带你回顾从CPU到GPU的历史,再展望从GPU到TPU的未来。 作者:钱纲 来源:大数据DT(ID:hzdashuju) 01 第一代、第二代GPU 1998年英伟达宣布GPU的研发成功,是计算机显示的历史性…

20 个 GPU 可承载相当于全球互联网流量、Grace CPU 超级芯片现世,英伟达这届 GTC 发布了什么?...

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 技术的极限在哪里? 想必科技圈给出回答大概率是没有! 这不,在 GTC 2022 Keynote 上,身着黑色夹克「战袍」的黄仁勋挂帅,英伟达带着采用台积电…

随着ChatGPT、文言一心的大火,未来可能的生活工作方式

前面的文章笼统的扯了一些ChatGPT、文言一心的差异化,感觉还是不够明白直观。特地找了一份资料,通过基础能力、进阶能力、和一些垂直领域的几百个各种问题,来对比分析两者的回答情况,让大家可以有个更接地气的了解。 由于问题太多…

chatgpt赋能python:Python是如何实现数据可视化的

Python是如何实现数据可视化的 看到数据可能让人头疼,但它也是条件成熟时必不可少的细节。在这些细节中,数据可视化是一个让人看起来轻松的过程,很多时候这种方法都是为了达到更好的效果。对于数据 Visualization,Python 无疑是一…

chatgpt赋能python:Python画图怎么保存

Python画图怎么保存 Python作为一门高级编程语言,广泛应用于数据分析、机器学习、人工智能等领域。在数据分析这一领域中,数据可视化是非常重要的一环,而Python作为数据分析的利器之一,也有着强大的画图能力。那么,在…

他山之石可以攻玉:解锁9个chatGPT常用姿势

ChatGPT是一个颠覆性的人工智能,可以用来实现众多目标。下面是我们用中文提出的关于这些任务的指令,以及来自ChatGPT的中文回答示例。 调试代码 提示:为什么我的python代码报错:x [2, 3, 8 9]? ChatGPT回答&#x…

JSP实现简易的聊天功能(Session机制)

JSP实现简易的聊天功能&#xff08;Session机制&#xff09; 基于服务器端全局应用空间 application 的简易聊天室实现 1.login.jsp <% page language"java" contentType"text/html; charsetUTF-8"pageEncoding"UTF-8"%> <!DOCTYPE …