算法高级(45)-阿尔法狗到底有多厉害?

1997年5月11日,一台名为“深蓝”的超级电脑将棋盘上的一个兵走到C4位置时,人类有史以来最伟大的国际象棋名家卡斯帕罗夫不得不沮丧地承认自己输了。世纪末的一场人机大战终于以计算机的微弱优势取胜。

当然,国际象棋这样的棋类比赛,计算机是可以依靠棋谱来穷尽所有可能后续步数的,所以他能击败人类我们可以认为还是穷举法。但是,人类依然有一个尊严般的领域,那就是落子变化超过宇宙原子总数的围棋。因为其超大的计算量,人们觉得这是一个软件几乎无法解决的领域,也被称为人类智慧最后的堡垒。

如果说“深蓝”的算法你能理解,那人类最后的一块遮羞布在2016年被一只狗无情地撕下了。

一、阿尔法狗

2016年3月,阿尔法围棋与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;2016年末2017年初,该程序在中国棋类网站上以“大师”(Master)为注册账号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;2017年5月,在中国乌镇围棋峰会上,它与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜。围棋界公认阿尔法围棋的棋力已经超过人类职业围棋顶尖水平,在GoRatings网站公布的世界职业围棋排名中,其等级分曾超过排名人类第一的棋手柯洁。

2017年5月27日,在柯洁与阿尔法围棋的人机大战之后,阿尔法围棋团队宣布阿尔法围棋将不再参加围棋比赛。2017年10月18日,DeepMind团队公布了最强版阿尔法围棋,代号AlphaGo Zero。

二、阿尔法狗旧版算法原理

Alphago的原理并非基于穷举,而是基于两个神经网络所一起作用作出的决策。神经网络如果简单来看,可以算作是人类对于神经系统的一种模拟。定义好神经元的数量和层级,初始化权重和偏移,并通过训练数据对其进行训练。即观察它的输出和预期结果之间的差异,并改进网络本身的参数等。之后神经网络就可以提高自己在解决问题时的表现。

这很类似人类神经系统能够从不断输入的外界数据和反馈中提高自己的表现,比如学会手握住东西、学会走路、学会说话一样。Alphago采用两个神经网络、一个叫作价值网络,另一个是策略网络。两个网络共同决定了它的决策。而它最初的设计。而它最初的训练数据,则是人类对局中海量的围棋棋谱。Alphago通过学习棋谱到达比较高的水平,之后在进行自我对弈。并用3000万盘自我对弈棋谱来进行训练,就如同一个可以左右互搏的大师,上下数千万局不会疲劳,并最终获得了提升。而人类终其一生也就数千盘棋,是无法望其相背的。

阿尔法围棋系统主要由几个部分组成为:

  • 策略网络(Policy Network),给定当前局面,预测并采样下一步的走棋;
  • 快速走子(Fast rollout),目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;
  • 价值网络(Value Network),给定当前局面,估计是白胜概率大还是黑胜概率大;
  • 蒙特卡洛树搜索(Monte Carlo Tree Search)。

把以上这三个部分连起来,形成一个完整的系统。

不过这件事,并没有走向终点。因为就算是战胜了所有人类选手。Alphago最早仍然是基于人类对于围棋的理解而训练。也就是说人类其实用之前所积累的智慧给了Alphago关键性的智慧。

三、阿尔法狗新版算法原理

很快,AlphaGo Zero来了,在2017年10月19这天,Alphago zero发布了,他融合了价值网络和策略网络。只所以叫zero,因为这是一个从零开始的人工智能。它不需要任何人类棋谱的输入,完全靠自我对弈进行训练。而且因为算法的优化,它的效率高得惊人。

最早的时候,它就如同一个普通的围棋初学者,比如在3小时的时候几乎是乱下,十几个小时后,他就学会了一些简单的招式。随后就学会了更多的围棋知识。而经过72小时的训练,这个不需要人格化人类棋谱输入的AI,经过大约500万局对局。已经达到饿了击败李现石Alphago的程度,也就是达到了人类最顶级高手的程度。也就是说,人类数千年的围棋知识,人工智能3天已经走过了。40天的训练后,Alphago zero已经可以完全战胜对战柯洁的Alphago master。也就是接近无人望其项背的围棋之神。这个版本的zero对初版的对初版的对局是100:0胜,对柯洁版的比分是89:11胜,令人赞叹不已。

AlphaGoZero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,阿尔法围棋团队发现,AlphaGoZero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。

AlphaGoZero并不使用快速、随机的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠地是其高质量的神经网络来评估下棋的局势。

四、发展方向

“阿尔法围棋”(AlphaGo)能否代表智能计算发展方向还有争议,但比较一致的观点是,它象征着计算机技术已进入人工智能的新信息技术时代(新IT时代),其特征就是大数据、大计算、大决策,三位一体。它的智慧正在接近人类。

也许,真的到了那一天,人类会发现,原来自己才是人工智能养在温室中的小白鼠!想想都可怕。


我的微信公众号:架构真经(关注领取免费资源)

参考文章

  1. https://www.sohu.com/a/231176382_100170370
  2. https://cloud.tencent.com/developer/news/440852
  3. https://baike.baidu.com/item/%E9%98%BF%E5%B0%94%E6%B3%95%E5%9B%B4%E6%A3%8B/19319610?fromtitle=%E9%98%BF%E5%B0%94%E6%B3%95%E7%8B%97&fromid=19447507&fr=aladdin

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33251.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是阿尔法和贝塔?

不管是买基金进行投资的基民,还是专业挑选基金经理的各种机构,都会面临这么一个问题: XX基金在过去X年涨/跌了X%,它的表现如何?算好,还是不好? 要把这个问题讲清楚,我们就需要向大…

谷歌计算机围棋程序,阿尔法狗教你下棋 谷歌上线AlphaGo围棋教学工具

【PConline 资讯】看起来AlphaGo在围棋界真的是无敌了,如果这么强大聪明的AI变成了围棋老师,对于人类来说是不是又是另一种体验呢?12月13号,谷歌旗下的DeepMind上线了这款在线AlphaGo围棋教学工具(点击此访问)。放心点进去&#x…

人工智能围棋战胜李世石,人工智能围棋阿尔法狗

AI让围棋失去了很多魅力,人工智能对围棋游戏的影响有多大? 人工智能对围棋影响是两面性的,围棋本身就是一种娱乐方式,并不一定是说人工智能完胜人类之后就会让这种娱乐消失。我们可以通过人工智能学习到更精的棋艺,而…

阿尔法围棋是人工智能吗,围棋智能机器人阿法狗

阿尔法狗什么意思? 阿尔法狗是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。其英文名为AlphaGo,音译中文后戏称为阿尔法狗。 人工智能围棋项目:小发猫 阿尔法狗其主要工作原理是“深度学习”。“深度学习”是指多层的人工神…

阿尔法狗与机巧围棋的网络结构

阿尔法狗(AlphaGo)的意思是“围棋王”,俗称“阿尔法狗”,它是世界上第一个打败人类围棋冠军的AI。2015年10月,阿尔法狗以5 : 0战胜了欧洲围棋冠军樊麾二段,在2016年3月,阿尔法狗以4 : 1战胜了世界冠军李世石九段。2017…

围棋智能机器人阿法狗,阿尔法狗机器人围棋

第一个战胜围棋世界冠军的人工智能程序是什么? 阿尔法狗(AlphaGo)是第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能程序,由谷歌(Google)公司的团队开发。其主要工作原理是“深度学习”。 人工智能围棋项目:小发猫 2017年5月…

阿尔法围棋击败人类是计算机在那方面的应用,阿尔法围棋战胜人类:人工智能又一胜利...

计算机下棋的思考模式 现在主流弈棋计算机的基本“思考模式”很简单,就是对当前局面下的每一种合法走法所直接导致的局面进行评估,然后选择“获胜概率”最高的局面所对应的那个走法。也就是说,“准确评估给定局面的胜率”是主流弈棋计算机的核…

spring-boot3 重定向(状态码:302)问题(无论访问那个接口都会被重定向到 【/login】登录界面)

问题描述 今天使用spring-boot做了热重载以后出现了一个问题,我无论访问那个接口都会导致接口被重定向到下面这个界面 地址是 :“localhost:/login” chatGPT解决方式 问了一下 chatGPT,下面是他给我的答案(没能解决)&#xf…

Linux 创建文件的12种方法总结

在Linux中,可以使用多种方法来创建文件。以下是一些常见的方法: 1. touch命令 touch filename,用于创建一个空文件。如果文件已存在,则只更新其访问时间和修改时间。 touch 命令通常用于将文件的访问和修改时间更新为当前时间。…

【Linux】云服务器Centos 7安装nginx,设置二级域名转发端口

这里写目录标题 一、 Nginx 安装1.1 安装Nginx1.2 使用1.3 自启动配置 二、Nginx详细2.1 相关命令2.2 二级域名转发 三、 SSL配置3.1 确保Nginx安装了SSL模块3.2 下载证书其它 一、 Nginx 安装 1.1 安装Nginx 下载网址为http://nginx.org/en/download.html,如下当…

网络爬虫有什么用?怎么爬?手把手教你爬网页(Python代码)

导读:本文主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫;另一部分是HTTP请求的Python实现,帮助大家了解Python中实现HTTP请求的各种方式,以便具备编写HTTP网络程序的能力。 作者&…

微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型...

来源:AI前线 整理:核子可乐,褚杏娟 Chatbot Arena 等排行榜已经反复证明,数十亿美元支撑起来的 ChatGPT 仍然是聊天机器人领域无可争辩的王者。而人们只能调用其 API ,无法私有化部署,无法自己训练调整。…

创新案例|专注在线 协作平台 设计产品中国首家PLG独角兽企业蓝湖如何实现98%的头部企业渗透率

蓝湖起步于2015年,是一款服务于产品经理、设计师、工程师的产品设计研发在线协作工具, 2021年10月,蓝湖宣布完成C轮融资,融资额高达10亿人民币,称为中国2B市场中首家采用PLG发展的独角兽企业,并实现了从100…

OpenAI发布人工智能安全路径报告

2023年4月5日,OpenAI在其官网上发布了**《我们迈向人工智能安全的路径》(Our approach to AI safety)** 一文,对包括ChatGPT在内的AI产品安全问题进行回应。这一公告内容从六个角度对其AI产品的安全愿景进行了声明。此前,韩国三星称ChatGPT导…

网安业绩疲软,云计算生变,深信服造血能力成谜

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 深信服的转型,难以看到终点。 作为网安巨头的深信服,其业务体量曾度过一段高速增长的阶段。近五年,网络安全行业都处于持续增长的阶段,深信服也保持着整体业绩的增速。 但不能…

AI智能课程:第九节:让chatGPT当你的面试官

后续课程安排 面试官能力分析 专业打造各类面试官 设定初步结构 向chatGPT提问 最终呈现的效果 设定面试范围 面试管打造-分步法 练习 linux端 插件推荐:如何让自己的world更智能 拓展知识 创意玩法

使用ChatGPT 当回运营面试官,他真的好会,被震撼到了

使用移动端,多端都能体验ChatGPT,被震撼到了,这是我问的运营面试 使用 ChatGPT

ChatGPT4.0:让他扮演面试官

分享一下使用ChatGPT4.0的一些场景: 我的提问:我应聘高级JAVA开发工程师职位,你是技术面试官,请问我10个问题,并给出详细的参考答案 它的回答: 问题1:请解释一下什么是JVM(Java虚…

GPT面试官

使用ChatGPT模仿面试官,问我做过的项目! 1.关键词部分 需要让CHatGPT有一个准确的角色定位,以下是我给它的角色定位词: 请你作为一个Java后端面试官,请你基于我的项目,问我一些由项目扩展到专业知识的问题&#xff…

重磅!CPOS、VISA、Facebook、摩根大通杀入跨境支付市场

随着时间的推移,越来越多悄悄布局区块链的金融、科技巨头开始浮出水面。除了CPOS,VISA、摩根大通、Facebook也将区块链和加密金融作为接下来的重要业务。 和CPOS一样,VISA、摩根大通、Facebook同样看中了全球跨境支付的巨大市场。摩根大通的…