读天才与算法：人脑与AI的数学思维笔记03_AlphaGo

读天才与算法：人脑与AI的数学思维笔记03_AlphaGo

news/2025/1/4 5:46:04/文章来源:https://blog.csdn.net/lyingSeven/article/details/137892363

1. 国际象棋

1.1. 1997年计算机“深蓝”（Deep Blue）击败了顶尖国际象棋手，但机器取代数学研究机构还言之尚早

1.2. 下国际象棋与数学的形式化证明颇有相似之处，但学者认为中国围棋的思维方式更能够体现数学家思考的创造性和直觉力

1.3. 国际象棋与围棋相比，则是随着棋子一个个被吃掉，棋局变得越来越简单

1.4. 计算机科学家克劳德·香农（Claude Shannon）估计的国际象棋走法数量约为120位（称为香农数）

1.5. 国际象棋的行棋步骤以一种可控、有序的方式逐级建立分支，最终形成一个包含各种可能性的树状结构，计算机甚至人类都可以根据逻辑规则逐级分析不同分支的蕴含关系

1.6. 国际象棋更容易进行得分评价

1.6.1. 国际象棋是破坏性的，在行棋过程中，棋子会被一个个吃掉

1.6.2. 棋局会逐步简化

2. 围棋

2.1. 围棋很像数学，可以在相当简单的规则下形成精妙绝伦、错综复杂的推理

2.2. 据美国围棋协会（American Go Association）估计，围棋的可能走法数量是一个大约有300位的数字

2.3. 围棋就不是一种易于推算下一步行棋对策的游戏了，我们很难建立围棋行棋可能性的树状图

2.4. 围棋棋手推演下一步落子策略的过程似乎更依赖于自身的直觉判断

2.5. 围棋最重要的一点，是可以通过客观的方法检验新的行棋思路是否具有价值

2.6. 人类的大脑可以敏锐地捕捉到视觉图像所呈现出的结构和模式，所以围棋棋手可以通过观察棋子布局来推断棋势，然后得出下一步的应对策略

2.6.1. 人类大脑的视觉结构处理能力作为一种基本的生存技能，经过数百万年的进化已经变得高度发达

2.6.2. 任何动物的生存能力在一定程度上都取决于它在形态万千的自然界中对不同结构图像的识别能力

2.6.2.1. 原本平静的丛林之中激起的一丝混乱，极有可能预示着另一种动物的潜入

2.6.2.2. 这类敏感信息备受动物们的关注，因为它关系到自己会成为猎物还是猎食者，这就是大自然的生存法则

2.6.2.3. 人类的大脑非常擅长识别模式并预测它们的发展方向，同时做出适当的反应

2.7. 计算机程序学习下围棋非常困难的主要原因之一，因为到目前为止，还没有一种简单易行的方法可以建立起一套稳妥的系统，去评价对弈双方的领先状况

2.7.1. 围棋则不然，它是建设性的，行棋越多，棋盘上的棋子越多，棋局也越来越复杂

2.8. 对围棋下法的革新一直持续不断、屡见不鲜

2.8.1. 最近一次是围棋界的传奇人物吴清源大师于20世纪30年代开创的新棋法，他的布局之法颠覆了传统围棋布局的常用套路

2.8.2. AlphaGo可能会引发一场更大的围棋“革命”

2.8.2.1. 虽然人类已经发明围棋数千年了，但人工智能技术的出现让我们感觉到人类对围棋的理解仍然还很肤浅

2.9. 局部极大值

2.9.1. 围棋算法是陷入数学家们所说的“局部极大值”的困境当中的

2.9.2. 图

2.9.3. 在传统棋法的影响之下，围棋已发展出固有的一套成规，应用好这些规则的确能让棋手登上A峰

2.9.4. AlphaGo的出现拨开了迷雾，打破了这些规则对思维的束缚，使我们看到了更高的B峰

2.9.4.1. AlphaGo使用了一些新手都不会用的低级招式

2.9.4.2. 传统下法中棋手不会在三行三列交叉点上落子，但AlphaGo却向我们展示了如何利用好这一招并为整个棋局带来新的机遇

2.9.5. 围棋比赛的统计资料显示，使用传统下法的棋手通常会输给使用新下法的棋手两子

3. 戴密斯·哈萨比斯

3.1. Demis Hassabis

3.1.1. 虽然剑桥大学破格录取了他，但由于年龄太小，学校要求他晚一年入学

3.1.2. 课堂上教授却反复强调：“围棋极具创造性和直觉性，计算机永远下不好围棋。”

3.1.3. 当他从剑桥毕业时，他决心通过自己的努力来证明教授的言论是错误的

3.2. 与其编写一个会下围棋的程序，不如编写一个通用性的“元程序”，它可以用于编写出会下围棋的程序

3.3. 重点是“元程序”在实现以后将具有模式学习能力，随着经历的棋局越来越多，该程序会在下棋过程中自我学习，不断地从错误走法中总结经验并加以改进

3.4. 新生儿的大脑并没有预先设定应对生存挑战的方法，但他们会通过不断学习来强化自我，根据环境的变化做出适当的调整

3.4.1. 了解大脑的工作原理有助于实现自己创建一个会下围棋的计算机程序的梦想

3.5. 把人工智能算法比作哈勃望远镜，认为它是一种可以用来探索比以往更深、更远、更广领域的工具

3.5.1. 它会提升而不是取代人类的创造力

3.6. 考虑到未来的发展，哈萨比斯决定将公司卖给谷歌

3.6.1. 本来我们并不想这么做，但在过去3年里，为了筹措资金，我只有10%的时间用于研究。所以，我意识到，我的人生可能没有足够的时间，既能把公司发展成谷歌那样的规模，又可以在人工智能领域有所建树。这样的选择对我来说并不难

3.6.1.1. 哈萨比斯

3.6.2. 【躺柒】评：既要..也要..，最后很可能啥都没有；舍得，舍得，有舍才有得；在每天时间总量不变(1天24小时)或者人生时长有定数（神龟虽寿犹有竟时）的情况下，就看如何分配了

4. DeepMind

4.1. 2010年9月，哈萨比斯与神经学家谢恩·莱格（Shane Legg）与穆斯塔法·苏莱曼（Mustafa Suleyman，哈萨比斯从小一起长大的好友）三人创建了公司，即DeepMind

4.1.1. 只有埃隆·马斯克（Elon Musk）、彼得·蒂尔（Peter Thiel）等极少数的投资人看好这家公司的前景并注入了资金

4.2. 在开始阶段选择了一个相对简单的目标：20世纪80年代的雅达利（Atari）游戏

4.2.1. 雅达利游戏的复杂性不可与古老的中国围棋同日而语

4.3. 打砖块游戏是一个完美的测试用例，可以检验DeepMind团队是否具备开发能够学会玩游戏的程序的能力

4.3.1. 该程序不会预先设定游戏规则，而是通过随机选择不同的“动作”（比如在打砖块游戏中移动球拍或是在Space Invaders游戏中发射激光炮射击外星人）不断试验，对相应的得分情况进行评估，分析其结果是有效提升还是止步不前

4.3.2. 该程序的实现基于20世纪90年代提出的强化学习（reinforcement learning）思想，目的在于根据分数的反馈或奖励函数来调整执行动作的概率

4.3.3. 新的算法将强化学习与神经网络相结合，后者将评估像素的状态以确定哪些特征与加分有直接关系

4.3.4. 程序在不断试验的过程中，可以真正学会通过特定的移动来提高它在游戏中的得分

4.3.5. 现在计算机程序不仅做到了，而且还做得更快、更好

4.4. 对他们而言，只针对一款游戏编写程序有些太简单了

4.4.1. 到了2014年，也就在DeepMind成立4年后，该项目在已经涉足的49款雅达利游戏的29款中获得了优于人类玩家的表现

4.5. 该团队在2015年初向《自然》杂志提交的论文中详细介绍了他们的研究成果

4.5.1. 在《自然》杂志上发表论文是科学家在科研事业上的重要里程碑，可DeepMind团队的论文不仅获得了极高的赞誉，还登上了杂志的封面

4.5.2. 这是人工智能发展史上的重要时刻。

4.5.2.1. 《华尔街日报》评论

4.6. DeepMind团队现在把目光投向了其他领域：医疗保健、气候变化、能源效率、语音的生成和识别、计算机视觉

5. AlphaGo

5.1. AlphaGo是戴密斯·哈萨比斯（Demis Hassabis）智慧的结晶

5.2. 唐纳德·米基

5.2.1. Donald Michie

5.2.2. 人工智能研究员

5.2.3. 20世纪60年代米基编写了一个名为“MENACE”的算法，该算法可以零基础学习玩井字棋游戏的最佳策略（MENACE代表导出〇和×策略的引擎）

5.3. 此前人们开发的下围棋程序，甚至很难与业余的优秀围棋选手相匹敌

5.3.1. Crazy Stone是唯一一款接近高水平棋手的围棋程序

5.4. 2015年10月，他们决定组织一场非公开的人机对弈来测试程序，对手是当时的欧洲冠军——来自中国的樊麾

5.4.1. 在世界围棋比赛中，欧洲顶级选手只能位列600名左右

5.4.2. 好比制造出一辆无人驾驶汽车然后在银石赛道上击败了人类选手驾驶的福特嘉年华，并不意味着它能在F1大奖赛中战胜刘易斯·汉密尔顿（Lewis Hamilton）

5.5. 在某些特定参数配置下，AlphaGo似乎完全无法评估出到底是谁掌控了比赛，常常会产生一种错觉，以为自己赢了，而实际情况却恰恰相反

5.6. 对于一般的基于开放式数据库的程序来说，不按套路出牌的策略非常管用

5.6.1. 不仅可以使机器手足无措，还可能误导机器在棋局的重要关口或是长远战略决策上犯下致命错误

5.6.2. 遇到AlphaGo，这个如意算盘可就打空了

5.6.2.1. AlphaGo可以实时动态评估棋局形势，并根据以前的经验制定出最佳策略

5.7. 带来希望，是因为正是人类的这种情绪反应激励着我们去探索未知、开创未来，毕竟还是人类给AlphaGo编写了制胜的代码

5.7.1. 感到忧心，是因为机器太过“冷漠”，它根本就不关心事情发展的最终结局是不是程序编写者所期望的

5.8. 从表面上看，AlphaGo所能做的仅仅是下围棋，但实际上，它的学习和适应能力才是最值得人类关注的一种全新的东西

5.8.1. 登月并没有产生关于宇宙的非凡的新突破，但却意味着我们为实现这一壮举而开发的技术产生了非凡的新突破

5.9. 真正的洞察力源于对棋局的综合把控

5.9.1. 这些棋类游戏现在已经成为挖掘新思想的宝库

6. 李世石九段对阵谷歌AlphaGo五番棋赛

6.1. 在酒店内的比赛现场却是封闭和保密的

6.1.1. 媒体和现场观众的任何行为都不会让AlphaGo分心，因为机器无论在什么状态下，都会保持“禅宗大师”一般的定力，呈现出一种完美的专注状态

6.2. 第一局

6.2.1. 第一局比赛中AlphaGo所走的每一步棋还是符合人类逻辑思维的，现场的专家也能够讲解和分析棋局

6.2.2. 李世石执黑先行，作为白方的DeepMind团队由其成员黄士杰（Aja Huang）代替AlphaGo行棋

6.2.2.1. 毕竟AlphaGo只是人工智能程序而不是能够自己下棋的机器人

6.3. 第二局

6.3.1. AlphaGo下出第37手：黄士杰在距离棋盘边缘5步的位置落下一颗黑子

6.3.1.1. 这一招使得包括李世石在内的所有人都倍感震惊

6.3.1.2. 在第5条线上落子一般被认为是不太恰当的选择

6.3.1.2.1. 因为这会给对手可乘之机：建立一个既可在短效、局部区域内抢得先手，又可在长远、全局范围内影响胜负的策略

6.3.1.3. 这确实不是人类的行棋方法

6.3.1.4. 这一着非但不是臭棋，反而是立意深远的妙手

6.4. 第三局

6.4.1. 怠惰走法（lazy moves）的策略

6.4.1.1. 通过分析，AlphaGo确信自己最终可以获胜，正因为如此，它选择了这种安全的策略

6.5. 第四局

6.5.1. 李世石采用了一种更为激进、极端的“先捞后洗”（amashi）的策略

6.5.2. “胜负手”（all-or-nothing）策略可能会让AlphaGo更难轻易得分

6.5.3. 当AlphaGo的棋路开始变得保守，频频使用怠惰走法时，就标志着AlphaGo已经确认自己领先了

6.5.4. 第78手就是李世石的逆袭大招

6.5.4.1. 当AlphaGo意识到自己失败后，会做出一些令人费解的疯狂行为

6.5.4.2. AlphaGo的行为没有通过图灵测试，因为任何一个具有战略眼光的人都不会做出那样的决策

6.5.4.3. 这一步棋打破了传统棋路，是为整局比赛带来深远影响的关键所在

6.5.4.3.1. ‘上帝之手’

6.5.4.4. AlphaGo与人类对弈的历史经验让它完全摒弃了某些思考

6.5.4.4.1. 根据它的评估，那种下法只有万分之一的可能性会出现

6.6. 第五局

6.6.1. 经过第四局，AlphaGo也收获颇丰

6.6.1.1. 现在就算李世石在第10 000手下出违反常规的怪招，它也不会再想着侥幸过关了

6.7. 李世石认为不只机器可以学习和进化，人也可以从失败中学到一些东西

6.7.1. 与一群职业棋手分析和探讨此前两场比赛中失利的原因，这场讨论一直持续到次日清晨6点

6.8. 算法的强大之处：从错误中吸取教训，进而反败为胜

6.8.1. 并不意味着AlphaGo不会再犯新的错误

7. 向人类宣战

7.1. 我们在持续重构世界秩序，直觉始终被尊崇。

7.1.1. 保罗·克利（Paul Klee）

7.2. 只在局部环境中按部就班地进行逻辑分析走不了太远，必须与发现“可能存在物”的直觉相结合才有可能取得显著的突破

7.2.1. 有些数学猜想虽然未得到证明，但提出猜想的数学家经常能感觉到在他的论述中暗含着某种真理

7.2.2. 善于提出好的猜想的数学家比善于证明猜想的数学家更值得尊敬

7.2.3. 束缚我们认知的障壁，会在计算机技术日新月异的发展中被瞬间攻破

7.3. 一些在诞生之初就受到指摘的事物，往往经历几代人才会逐渐被接受并被视为具有革命性的创新

7.3.1. 并不被19世纪的人们所认可或知晓的贝多芬的交响乐，现在被誉为艺术的巅峰

7.3.2. 凡·高的一生中，几乎没有售出过画作，它们只能用来交换食物或绘画材料，但现在他的大作却可以卖出数百万美元的高价

7.4. 当我们得知再怎么努力也只能成为屈居于机器之后的第二梯队棋手时，确实会意志消沉

7.4.1. 虽然机器的程序还是人编写的，但这也不会让人有挽回颜面的感觉

7.5. DeepMind团队将要开发出来的程序居然有可能让数学家丢掉饭碗，而创造这些程序的工具正是数学家们历经几个世纪的不懈努力才发现和创造出来的

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/313112.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

使用lambda表达式Collectors.toMap 遇到的报错,带有源码分析

使用lambda表达式Collectors.toMap 遇到的报错,带有源码分析

概述正常hashMap中的key和value都允许为null，但是在list转map中，使用lambda表达式要求key和value都不能为null。这很反常识起因本身上游返回contentId和traceId 内容id和跟踪id，但是项目人员变动修改了接口没有给traceId导致代码 pu…

阅读更多...

kafka---topic详解

kafka---topic详解

一、分区与高可用在Kafka中，事件（events 事件即消息）是以topic的形式进行组织的；同时topic是分区（partitioned）的，这意味着一个topic分布在Kafka broker上的多个“存储桶”(buckets)上。这种数据的分布式放置对于可伸缩性非常重要，因为它允许客户端应用程序同时从多个…

阅读更多...

MySQL Explan执行计划详解

MySQL Explan执行计划详解

Explan执行计划首先我们采用explan执行计划执行一条sql，发现返回了12个列，下面会详细解释每一列 1、ID列 id列的值是代表了select语句执行顺序，是和select相关联的；id列的值大的会优先执行，如果id列为空最后执行&a…

阅读更多...

【数据挖掘】实验8：分类与预测建模

【数据挖掘】实验8：分类与预测建模

实验8：分类与预测建模一：实验目的与要求 1：学习和掌握回归分析、决策树、人工神经网络、KNN算法、朴素贝叶斯分类等机器学习算法在R语言中的应用。 2：了解其他分类与预测算法函数。 3：学习和掌握分类与预测算法的评…

阅读更多...

大数据------JavaWeb------JDBC（完整知识点汇总）

大数据------JavaWeb------JDBC（完整知识点汇总）

JDBC 定义全称为Java数据库连接（Java DataBase Connectivity）：是使用java语句来操作所有关系型数据库的一套API JDBC本质它是官方定义的一套操作所有关系型数据库的规则（即接口），各个数据库厂商会去实现…

阅读更多...

Day 16 Linux服务管理和日志管理

Day 16 Linux服务管理和日志管理

服务管理启动服务：systemctl start 服务名停止服务：systemctl stop 服务名重启服务：systemctl restart 服务名重新加载配置文件：systemctl reload 服务名（期间并不停止服务进程） 查看服务运行状态…

阅读更多...

pycharm/idea专业版过期永久解决

pycharm/idea专业版过期永久解决

1、在file-settings-plungins中找到设置 2、点击增加如图网址3、下载安装此插件 4、按照如下步骤操作即可 5、如果又过期了重复4步骤即可，idea编辑器也是如此操作

阅读更多...

如何用ChatGPT进行论文撰写？

原文链接：如何用ChatGPT进行论文撰写？https://mp.weixin.qq.com/s?__bizMzUzNTczMDMxMg&mid2247601619&idx1&snb686fbe87dedfac2df3a6afe780b2ffe&chksmfa820c34cdf5852251dca64597024ea62ddbde280086535ec251f4b62b848d9f9234688384e6…

阅读更多...

深度学习 Lecture 9 信息增益、One-hot、回归树、集成树、随机森林、XGBoost模型

深度学习 Lecture 9 信息增益、One-hot、回归树、集成树、随机森林、XGBoost模型

一、信息增益（Information Gain) 决定使用什么特征来划分一个节点取决于什么样的特征选择最能减少熵（也就是使纯度最大化） 在决策树中，熵的减少被称为信息增益。所以如何选择呢？ 假设现在有三个特征可以选择&#…

阅读更多...

政安晨：【深度学习神经网络基础】（十一）—— 激活函数的导数以及在反向传播中的应用

政安晨：【深度学习神经网络基础】（十一）—— 激活函数的导数以及在反向传播中的应用

目录线性激活函数的导数 Softmax激活函数的导数 S型激活函数的导数双曲正切激活函数的导数 ReLU激活函数的导数如何在反向传播中应用批量训练和在线训练随机梯度下降反向传播权重更新选择学习率和动量 Nesterov动量政安晨的个人主页：政安晨欢迎…

阅读更多...

Go 语言中的 GIF 图像处理完全指南：`image/gif`的技术与实践

Go 语言中的 GIF 图像处理完全指南：`image/gif`的技术与实践

Go 语言中的 GIF 图像处理完全指南：image/gif的技术与实践概述安装与基础设置导入 image/gif 包初步配置示例：设置一个简单的 GIF 编码环境读取与解码 GIF 图像读取 GIF 文件解析 GIF 数据创建与编码 GIF 图像创建 GIF 图像编码 GIF 图像处理 GIF 动…

阅读更多...

中文编程入门（Lua5.4.6中文版）第十二章 Lua 协程参考《愿神》游戏

中文编程入门（Lua5.4.6中文版）第十二章 Lua 协程参考《愿神》游戏

在《愿神》的提瓦特大陆上，每一位冒险者都拥有自己的独特力量——“神之眼”，他们借助元素之力探索广袤的世界，解决谜题，战胜敌人。而在提瓦特的科技树中，存在着一项名为“协同程序”的高级秘术，它使冒险者…

阅读更多...

使用Canal同步MySQL 8到ES中小白配置教程

使用Canal同步MySQL 8到ES中小白配置教程

🚀 使用Canal同步MySQL 8到ES中小白配置教程 🚀 文章目录 🚀 使用Canal同步MySQL 8到ES中小白配置教程 🚀**摘要****引言****正文**📘 第1章：初识Canal1.1 Canal概述1.2 工作原理解析 📘 第2章&…

阅读更多...

企业网站制作如何被百度收录

企业网站制作如何被百度收录

1、网站在百度中的整体评分说俗点就是网站的权重，在优化过程中我们会见到很多网站出现秒收的情况，发布的文章几分钟就可以收录，这个通过SITE语法都可以去查询，那么这跟自己的网站权重以及内容更新习惯是有非常重要的关联。我们…

阅读更多...

Real3DPortrait照片对口型，数字人，音频/视频驱动数字人

Real3DPortrait照片对口型，数字人，音频/视频驱动数字人

先看效果上传一张图片和一段音频，照片如下： 合成后效果如下： 照片对口型-音频驱动支持音频驱动和视频驱动，视频可以使照片有参照视频中的口型和和动作。项目地址 https://github.com/yerfor/Real3DPortrait 我的环境 win…

阅读更多...

PVE grub resue错误修复 lvmid BUG

PVE grub resue错误修复 lvmid BUG

服务器断电后启动不起来，显示grub resue 找了半天没有找到修复方法。看官方文档有一处Recovering from grub “disk not found” error when booting from LVM 极为类似。https://pve.proxmox.com/wiki/Recover_From_Grub_Failure 下面是处理过程。使用PVE 6.4启…

阅读更多...

单例模式详解

单例模式详解

什么是单例模式首先，单例模式是一种设计模式，按字面意思，指一个类只能创建一个对象，当创建出多个对象的时候，就会出现报错异常单例模式为何出现？ 1.资源共享:某些情况下，多个对象都需要共享一…

阅读更多...

双向链表也叫双链表

双向链表也叫双链表

双向链表也叫双链表双向链表也叫双链表每个节点都有两个指针，分别指向直接前驱节点、直接后继节点双向链表中任意一个节点，都可以通过通过它的前驱节点和后继节点，访问其他节点节点如下节点定义 ListNode // 节点的值 T element; /…

阅读更多...

康谋技术 | 深入探讨：自动驾驶中的相机标定技术

随着自动驾驶技术的快速发展，多传感器的数据采集和融合可以显著提高系统的冗余度和容错性，进而保证决策的快速性和正确性。在项目开发迭代过程中，传感器标定扮演着至关重要的角色，它位于数据采集平台与感知融合算法之间&#xff0…

阅读更多...

【R语言】混合图：小提琴图+箱线图

{ggstatsplot} 是 {ggplot2} 包的扩展，用于创建图形，其中包含信息丰富的绘图本身中包含的统计测试的详细信息。在典型的探索性数据分析工作流程中，数据可视化和统计建模是两个不同的阶段：可视化通知建模，而建模又可以建…

阅读更多...

最新文章

推荐文章