深度学习求解魔方新方法!诺丁汉大学研究团队提出适应度函数

作者 | 凌霄

责编 | 寇雪芹

头图 | 下载于视觉中国

人工智能和人类之间的“竞赛”一直都是热门的研究话题,AlphaGo 战胜了人类围棋玩家,AlphaZero 在围棋比赛中击败了AlphaGo 及其更高版本,并在国际象棋比赛中击败了顶级象棋引擎之一 Stockfish。在 DOTA2 多人实时战略游戏中,OpenAI Five 战胜了世界冠军战队。

魔方作为一项益智游戏,最早是由匈牙利布达佩斯建筑学院厄尔诺·鲁比克教授于1974 年发明,其风靡程度至今未衰。相比之下,魔方的解决方案涉及更多的象征、数学和抽象思维,因此能够破解这一难题的深度学习机器,将人工智能技术应用于求解魔方,更有利于建立一个可以思考、推理、计划和制定决策的系统。

魔方是一个非常复杂的谜题,一般人解魔方至少也需要 50 步,但是任何一个组合最多只有 20 个步骤。众所周知,魔方的最终目标,就是保证每条边、每个面都为同一颜色。考虑到立方体有数十亿条可行路径,这个任务并不简单,更无法通过随机移动解决。

诺丁汉大学副教授科林·约翰逊团队研究了一种深度学习技术,可以从一组解决问题的样本解决方案中学习所谓的“适应度函数”,最初被训练用来解决魔方。因此,科林·约翰逊团队采取的方法是,通过学习单独完成这些步骤中的每一步来尝试解决问题。研究人员提出一种新的适应度函数,可应用于演化算法和爬山算法。不需要直接从误差函数中定义拟合度,而是使用预训练过程从问题类的一组已解例子中学习拟合函数。

图 1:魔方 (图源:https://techxplore.com/news/2021-01-artificial-intelligence- humans.html)

约翰逊设计的这项技术主要基于两种方法:逐步学习和使用深层神经网络。在求解魔方的过程中,这种方法是试图一步一步地解读它,而不是一次学习求解整个魔方。即实际旋转中,尝试移动魔方以实现更简单的配置,多次重复此步骤,直到解决多维数据集。

研究人员认为,与其让程序试图学习如何求解整个多维数据集,不如让它学习如何将多维数据集转换成一个更简单的配置,然后采用这个更简单的配置,依此类推,直到它被求解。这种结构意味着解决方案的每一步都要简单得多。基于这种想法,研究人员首先设计了一种方法,可以通过对立方体进行数千次的模拟来估计立方体的混乱程度。在估计了魔方的混乱程度后,研究人员再使用深度神经网络来识别等待求解的魔方,最后,使用它积累的数据来解决立方体问题。

该项研究是使用预训练过程从问题类的一组已解例子中学习拟合函数,即 Learned Guidance Functions (LGFs),其输入是一个搜索空间和一组现有的解决方案轨迹。例如,在蛋白质折叠问题中,是三维结构空间中的点序列从一个序列到一个完全折叠的结构。对于一个

图像去噪的问题,这将是一个序列的图像从一个干净的图像到一个非常嘈杂的图像。

在该项研究中,LGFs 构造如下图 2 中伪代码所示。每次移动(在初始状态下)时,由当前状态和达到该状态的移动次数组成的一对将添加到训练集中,如下图 3 所示。

图 2:伪代码 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

图 3:数据集构建 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

 

然后,通过应用监督学习算法,特别是在 TensorFlow 上的 Keras 框架中实现的深度神经网络,从该训练集构造 LGFs。使用的特定网络如下图所示,通过 Dropout 用于鼓励泛化和防止过度拟合。损失函数采用分类交叉熵函数,采用 Adam 优化算法,未来,研究人员准备将应用参数和网络形状的元学习来优化生成的模型。如图 4 所示。 

图 4:用于训练的 Keras 深度学习网络 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

一旦学习到一个 LGFs,它就可以应用于手头的任务,即获取立方体的一个置乱状态, 并在搜索空间中移动,以找到解的状态。这是使用进化策略的一个变体来完成的。复制多维数据集的初始状态以填充总体。然后,在每一代中,通过对群体中的每一个成员进行随机移动而产生若干突变体。

任何被 LGFs 预测为比当前解更接近解的解都被放入一个中间种群池中,并通过均匀随机抽样产生一个新的世代,从这个种群池中进行替换,使种群达到最大规模,如下图所示,如下图 5 所示。研究人员认为,如果一个问题存在一个完美的 LGFs,就可以用最少的步骤来解决这个问题。从任意置乱状态开始,可以检查从该状态开始的所有可能的移动。其中至少有一个在移动到目标状态的次数上会更接近,然后可以将系统的状态移动到最接近的状态,然后重复,直到到达目标状态。

图 5:轨迹搜索与重建 (图源:Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665)

 

在研究中,误差主要有两种形式,其一是魔方问题形成训练集。其二是模型做出错误预测的地方。基于这些原因,一个真正的 LGFs 的适应度地形仍然会有局部极小值。

此外,研究人员评估了该项研究中的技术,将其与以前开发的方法进行了比较,例如基于随机森林的LGFs 方法、基于传统误差适应度的基线方法以及文献中的其他方法进行了比较。与基于随机森林的 LGFs 相比,它在求解频率和所需模型大小方面具有优势;然而,对于更复杂的问题,所需的代数更大。该项研究中的深度学习技术与所有这些替代方法相比都比较有利,同时也突出了分步处理任务的优势。这说明了如何从现有的解决方案中学习适应度函数,而不是由用户提供,从而增加了人工智能搜索过程的自主性。

然而这种研究方法与强化学习中学习价值函数的理念有相似之处,强化学习是通过从搜索过程中发现的奖励中回溯来计算这一点。在该项研究中,有一个显式训练集,囊括了成功状态下的数据,可以将其应用到学习的价值函数强化学习。值得注意的是,在机器学习中, 从一组丰富的行为轨迹而不仅仅是从一个标量奖励函数中学习的想法变得越来越突出,很多的研究也在尝试运用这种方法。

目前研究人员只是利用这种渐进式学习技术来解决魔方,但是,求解魔方只是该项技术运用的简单例子,该项研究中的策略和价值学习方法的结合可以解决更复杂的近似问题,也是未来研究的重要方向。

首先,使用自动化机器学习方法优化深度学习系统有很大的空间来优化系统的参数和结构。其次,还有一些进一步的实验将进一步调查这种行为:调查这种方法中重新初始化的频率和影响,使用景观平滑度的测量来了解 LGF 对景观的影响,并对不同的人口进行实验大小。最后,该方法还可以应用于许多其他问题,例如,蛋白质在生物细胞内折叠的方式、音频和视频文件的去噪、音频转录等。如去除旧录音(如早期留声机唱片)中的噪音之类的问题,需要消除不同类型的失真——回声、静态、可变速度——但每次录制都需要不同的策略。如果能够了解什么是“干净的录音”,什么是“稍微失真的录音”,那么可以尝试通过这种逐步的方式解决这类问题。”

人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大。基于人工智能技术, 人类已经制造了能够驱动汽车、合成化合物、折叠蛋白质和探测高能粒子的计算机。但是, 这些AI 算法无法解释其决策背后的思维过程。当人类能够利用人工智能技术折叠蛋白质不同结构的同时,也希望人工智能技术能够告诉研究人员更多关于蛋白质结构背后的生物学知识,而不只是仅仅完成折叠任务。

人工智能技术背后的思想目前是我们人类所无法企及的,AIs 造就了计算机科学界所说的“黑匣子”。黑匣子 AI 只是吐出解决方案,而没有给出解决方案的理由。AI 决策过程的黑匣子问题一直是AI 领域最大的担忧之一。几十年来,计算机科学家一直试图打开这个黑匣子,最近的研究表明,许多人工智能算法实际上确实以类似于人类的方式思考。例如,受过识别动物训练的计算机将了解不同类型的眼睛和耳朵,并将这些信息放在一起,以正确识别动物。

约翰逊教授的研究也正致力于开发人工智能算法,以人类能够理解的方式解释人工智能技术,并将该技术应用于更多的领域。如果人类能够打开这个“黑匣子”,解释 AI 背后的奥秘,这将是一个巨大的飞跃,可以避免每个人似乎都很担心的机器人启示,人工智能也将能够发现和教导人们关于尚未被发现的世界的新事实,从而带来新的创新和应用。

 

参考文献:

1. A deep learning technique to solve Rubik's cube and other problems step-by-step,

 https://techxplore.com/news/2021-02-deep-technique-rubik-cube-problems.html.

2. Colin G. Johnson. Solving the Rubik's cube with stepwise deep learning, Expert Systems (2021). DOI: 10.1111/exsy.12665

3. Howexplainableartificialintelligencecanhelphumansinnovate, https://techxplore.com/news/2021-01-artificial-intelligence-humans.html.

更多精彩推荐
☞一口一个,超灵活的Python迷你项目☞疫情期间网络攻击花样翻新,全年 81748 起安全事件背后暗藏规律☞用数据分析《你好,李焕英》“斐妈”爆红的真相☞最低售价17999元,华为发布新一代折叠屏手机Mate X2
点分享点收藏点点赞点在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13231.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

013英超:托特纳姆热刺 VS 诺丁汉森林icon胜平负:主胜

013英超:托特纳姆热刺 VS 诺丁汉森林icon 胜平负:主胜 分析:作为英超豪门之一的热刺相较于上个赛季,在本赛季发挥依旧很平稳,目前球队以14胜3平9负积45分排在联赛第4位,刚刚卡在下赛季欧冠icon资格区,多赛一…

导致计算机科学硕士和计算机科学理学硕士,诺丁汉大学计算机科学理学硕士研究生offer一枚...

原标题:诺丁汉大学计算机科学理学硕士研究生offer一枚 指南者留学学员背景 学生姓名:Q同学 本科学校:中国计量大学 本科专业:电子科学与技术 录取学校:诺丁汉大学 录取专业:计算机科学理学硕士 背景资料 大…

宁波市教育学院计算机系主任,欢迎宁波诺丁汉大学计算机系主任白瑞斌教授一行到访南科大...

2021年1月10日至11日,受南方科技大学计算机科学与工程系刘江教授邀请,宁波诺丁汉大学(UNNC)计算机科学系主任白瑞斌教授率崔天翔、任剑锋、李家炜、卢正四位助理教授,专程赴深圳到访南方科技大学计算机科学与工程系,双方学校的老师…

ChatGPT,拯救半导体?

关注、星标公众号,精彩内容每日送达 来源:内容由半导体行业观察(ID:icbank)编译自kedglobal,谢谢。 2023年6月22日,OMDIA高级咨询总监Akira Minamikawa先生在该公司主办的半导体市场趋势研讨会活…

上海亚商投顾:沪指午后放量跳水两市上涨个股不足500只

上海亚商投顾前言:无惧大盘涨跌,解密龙虎榜资金,跟踪一线游资和机构资金动向,识别短期热点和强势个股。 市场情绪 指数早间震荡走高,沪指盘中收复3300点,午后集体跳水,创业板指一度跌超2%。Chat…

AI帮我写代码,上班摸鱼不是梦(调教过程全记录)

最近发现磁盘空间严重不足,都弹窗提示我了: 想想看到底哪个文件夹占的空间比较大,好做针对性的删除和清理。奈何Windows系统没有查看文件夹大小的工具,只能鼠标放在某个文件夹上,等提示: AI时代都来临了&am…

程序员躺平摸鱼指南

温馨提醒:本文提供的上班摸鱼指南,不建议经常性使用,以免被炒鱿鱼。 1、项目编译和debug:命令行界面或者IDE界面不停的刷新各种奇怪的字符,并把程序最大化整个屏幕,看起来就非常忙碌 2、假装windows或者开…

小米万兆路由器里的 Docker 安装 chatgpt-next-web,打造自己的专属ChatGPT

小米万兆路由器里的 Docker 安装 chatgpt-next-web,打造自己的专属ChatGPT 0. 先体验一下效果1. 准备工作2. 查看Docker Hub镜像信息3. 拉取 ChatGPT-Next-Web 镜像和运行容器4. 感谢99. (Optional)其他 小米2022年12月份发布了万兆路由器,里面可以使用D…

chatgpt教我内存对齐,对齐了但没完全对齐?

文章目录 内存对齐关于chatgpt的回答总结 内存对齐 关于chatgpt的回答 我与chatgpt的对话如下: 我现在来描述与总结上述对话都干了啥以及我为什么要问这个。 我本来是在学习rapidjson源码里面的内存池实现,然后 RAPIDJSON_ALIGN 没有看懂,…

用PostMan调用chatGPT API示例

官网:OpenAI 登录,左上角选择API Key 生成一个API key 添加请求头 添加请求体

【ChatGPT实战案例】ChatGPT如何帮助产品经理高效工作?

目录 一、使用ChatGPT梳理主要工作方向​ 二、使用ChatGPT对具体工作提供思路 1、产品规划和定位 2、市场调研和分析 2.1 进行市场研究和竞争对手分析 2.2 生成用户画像和用户配置文件 3、需求收集和整理 3.1 估客户需求和反馈 4、产品设计和开发 4.1 生成产品想法和…

【学习ChatGPT】1. 复习:Seq2Seq、Transformer、GPT

ref. https://zhuanlan.zhihu.com/p/360932588 https://zhuanlan.zhihu.com/p/611472975 目录 2014年-Seq2Seq模型2015年-注意力Seq2Seq模型Google2017年-Transformer模型: Attention is all you need注意力机制 OpenAI2018年-GPT无监督预训练:神经网络语言模型无监…

ChatGPT将要创造出来的新职业有哪些?

根据当前趋势和数据分析,基于AI和ChatGPT等技术可能创造出的十个新兴职业以及每个职业的潜在需求评分。满分10分,分数越高表示需求可能性越大。请注意,这些评分和解释是基于目前的技术发展水平和趋势。 AI训练师 - 9分:随着AI系统…

学会ChatGPT模型调参,让你的文章质量飞速提升(提供免费测试网站)

在阐述观点的时候,首先分享一个免费且无需登录即可使用,结合问答与绘图,可调节模型参数的AI(懂的都懂,手动狗头)公益平台: https://shdily.com Temperature和Top_p都是用于控制生成文本的多样性和准确性的…

王国维《人间词话》风格评析七律之冠《登高》-ChatGPT调试

杜甫先生习诗当峥嵘岁月,因禅静福地育天才,故嘉名而扬。其诗风甘露脆玉,让人称道。《登高》一诗,被誉为七言诗之首。本文谦陈顾虑,为诗友愚论。余不执意与常规,不徇情以赞叹,纯生为素志&#xf…

极客故事|AI Hackathon:从每一个微小的时刻开始

上周末,由 SegmentFault 思否和 ONES 主办,SegmentFault AI Hackathon 杭州站暨思否 11 周年特别活动在杭州圆满结束。大赛延续 Hack with AI, Rebuild Everything with AI 的主题,鼓励开发者使用 Generative AI 技术构建创新应用&#xff0c…

前沿分享|ChatGPT对于科研和学业能带来哪些帮助—来自大学生视角

正在上传…重新上传取消 ChatGPT云炬学长 2015年包括Elon Musk、Sam Altman和 Greg Brockman在内的多位工程师和研究人员共同创办了OpenAI, 公司的核心宗旨在于“实现安全的通用人工智能(AGI)”,使其有益于人类。就在2022年11月, OpenAI发布了ChatGPT, 它创建类似…

chat_wordpress:ChatGPT SEO 关键词批量生成内容,批量发布到 WordPress

ChatGPT是一个基于GPT-3.5架构的大型语言模型,由OpenAI训练。它使用深度学习技术,通过学习大量的文本数据,可以生成人类类似的自然语言文本。ChatGPT是一个非常强大的对话引擎,可以进行对话、回答问题、完成任务等。ChatGPT是一个…

百度被曝3月推出自家ChatGPT/ 小米全球副总裁辞职/ 苹果折叠屏iPad有消息了...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好!今天是1月31日! 2023年头个月马上就过完了。(是不是Flag都还没立起来?) 那么,今天科技圈都在关注哪些新鲜事? 一起来看看。 小米全球副总裁、…

佛教生物学(Buddhist Biology):发展现状与发展战略

佛教生物学(Buddhist Biology):发展现状与发展战略 李升伟 1.佛教生物学(Buddhist Biology)的概念(内涵与外延)是什么? 佛教生物学(Buddhist Biology)是一门…