Transformer:一种图灵完备的神经网络

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】微信技术交流群

作者:张晨珩(北京大学23级博士生)已授权

https://zhuanlan.zhihu.com/p/611257510

论文: Attention is Turing Complete, Author: Perez et al.

Transformer是一种非常火的模型,特别是在chatgpt问世之后,已经显露出一统NLP领域的趋势。

这篇文章提供了一种崭新的视角去理解transformer,一个单层encoder、三层decoder的小transformer竟然就能几乎完美地模拟一台图灵机。某种程度上说,它拥有至少和现代计算机一样的计算潜力。近期,另一篇脑洞大开的工作甚至用少于13层的looped transformer,就成功地实现了绝大部分基本的计算操作。

这里记录几个自认为有趣的insight

为什么需要位置编码?

众所周知,transformer采用注意力机制,能够识别各单词之间的相关性,但对词序并没有要求。也就是说,在它看来,我爱你、我你爱,这两句话没有区别。因此,需要对输入的序列进行位置编码。

本文从计算理论的角度思考了这个问题。如果将transformer看成一个自动机,那么输入的序列就相当于待识别的语言。如果不进行位置编码,他就无法分辨两种仅有位置不同的语言。更进一步,还可以证明,只要两种语言的各字母比例相同,它就已然无法分辨。

于是这就要求transformer识别的语言集合一定具有比例不变性(proportion invariance),这样来看,它甚至无法识别正则语言,远远未达到我们的预期。

e12c8959ef24c41e04ac2e28effb844d.jpeg

比例不变性证明

然而,当加入了合适的位置编码以后,我们甚至能使transformer模拟任意一台图灵机。足可见,位置编码有多重要。

如何证明图灵完备性?

这里采用了直接模拟图灵机的方法。对于任意一台图灵机,其核心是,每个格局下的操作以及操作之后的状态转换。因此,我们只需要模拟出他的完整状态表,就可以重现其计算过程,也就证明了等效性。

令人惊叹的是,decoder部分的自回归过程很适合模拟图灵机的每一步操作。

如果按照机器翻译任务来理解,这里就是对于任一输入的语言,通过encoder将之编码,再由decoder将至翻译成图灵机的每一步操作。而自回归也恰恰对应这一步步的顺序操作。

于是,我们要做的事就变成了,如何设置网络参数,让他能够成功翻译。这部分技术性很强,就不在此多说了。

下面总结了整体证明框架和思路:

2f711e7c2823498eb0a401577b315b3a.jpeg

证明框架

0f76ebe4f1357242a394efc42e29e008.jpeg

思路细节

对精度的进一步探索

证明过程中需要用到一个不现实的假定:无限精度。

若考虑精度会怎么样呢?会限制Transformer能识别语言的复杂度。

首先我们记一个语言被TM识别的操作步数,也就是时间复杂度为T(n)。那么图灵机读写头的移动距离也最多为T(n)。

因此我们编码时最多只需要logT(n)比特(好像Tengyu Ma组有文章说只需要loglogT(n)),同时自回归的规模也最多只需要T(n)。

其实咱们也可以从自回归规模考虑这一问题,毕竟现实中除了精度限制也还有算力限制。

btw,文章中用的是hard attention,那是否可以用soft呢?也可以,但softmax不是有理函数,如果考虑soft,肯定就得将精度纳入考虑范围了。

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/24511.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

什么是元宇宙?元宇宙在 2023 年将走向何方

2023 年,元宇宙是当今技术领域的热门话题。除了新兴的人工智能和物联网技术,元宇宙服务提供商也在争先恐后地进行创新,以提供企业和消费者解决方案。 元宇宙曾经是技术先驱和数据科学家的专属,现在正在扩大到影响每个人。这种环…

Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学

Midjourney|文心一格prompt教程[技巧篇]:生成多样性、增加艺术风格、图片二次修改、渐进优化、权重、灯光设置等17个技巧等你来学 1.技巧一:临摹 我认为学习图片类的 prompt,跟学习画画是类似的,最好的学习方法不是直接用模板。…

新旧iphone短信转移,苹果旧手机短信导入新手机

短信携带重要信息内容,新旧iphone短信转移?您可能知道,iOS设备上不支持导出iPhone简讯,更不用说打印iPhone上的短信了。幸运的是,有一些可行的方法可以将iPhone短信导入到另一个iPhone,继续阅读以获得更多帮…

苹果手机怎么发语音短信?

说到语音,大家最熟悉的就是用微信发语音了,但是微信发语音的前提是必须是好友, 对于企业来说,使用范围还是受限,其实比微信语音应用范围广的就是语音短信,通过语音通知的新式,只要用户手机能正常…

iPhone苹果手机短信如何批量删除苹果iPhone手机短信?

iPhone苹果手机短信如何批量删除苹果iPhone手机短信? 1、iPhone苹果手机短信较多,如何才能快捷的批量删除苹果iPhone手机短信。 2、打开苹果iPhone手机设置; 3、在iPhone苹果手机设置内找到通用并点击进入; 4、在苹果iPhone手机设…

苹果手机短信如何转入Android手机,苹果手机怎么将短信备份导入到安卓手机?...

iPhone手机的短信无法直接导入安卓手机,在将苹果手机换为安卓手机时,短信往往无法迁移,这让我们很苦恼。小编试了QQ同步助手,百度网盘等同步类软件,往往只能备份通讯录,而无法备份短信。本文将介绍怎么样通…

小智AI教你制造业中如何应用ChatGPT实现智能化生产

制造业是现代社会经济发展的关键行业之一。然而,在制造业的生产过程中,存在着许多的瓶颈和问题,比如人力资源不足、生产线效率低下、生产成本高昂等等。这些问题导致制造业在生产效率、生产质量等方面面临着诸多挑战,因此&#xf…

ChatGPT Creator 刚刚启动了一个 AI 检测器,我们最终能否检测到 AI 编写的内容?

在过去的几个月里,我们看到许多工具都在尝试检测 AI 编写的文本。 然而,就在昨天,ChatGPT 背后的公司 OpenAI 推出了自己的文本分类器,旨在区分人工智能编写的文本和人类编写的文本。这是一个有一些限制的免费工具,但它仍然可以帮助您检测某些内容是否由 AI 编写。 我已…

Meta带头甩卖 VR头显打起价格战

新春三月,准备入手VR头显的“等等党”终于迎来降价利好。以Meta为首的一众VR厂商们纷纷打折,无论是为了清理库存、回收成本还是让步硬件新品,普通消费者都喜闻乐见。 上周五,Meta 率先官宣Meta Quest Pro与Meta Quest 2 的256GB版…

【青少年编程】【三级】打气球游戏

「青少年编程竞赛交流群」已成立(适合6至18周岁的青少年),公众号后台回复【Scratch】或【Python】,即可进入。如果加入了之前的社群不需要重复加入。 微信后台回复“资料下载”可获取以往学习的材料(视频、代码、文档&…

android 儿童 游戏,7-10岁儿童游戏大全

亲子游戏是亲子之间交往的重要形式。目的是培养小孩的认知和自理能力。最好的亲子教育,莫过于和宝宝一起玩丰富多彩的亲子游戏了。亲子游戏不仅让宝宝能玩得高兴,也能拉近你和宝宝的距离,何乐而不为? 7-10岁儿童游戏大全top1:春夏秋冬 春夏秋…

小朋友做游戏

链接:登录—专业IT笔试面试备考平台_牛客网 来源:牛客网 题目描述 牛牛是一个幼儿园老师,他经常带小朋友们一起做游戏。 现在,牛牛的班里有AAA个安静的小朋友和BBB个闹腾的小朋友,牛牛想要从中选出恰好nnn个人来做…

益智app游戏 android,儿童宝宝益智游戏

儿童宝宝益智游戏app是一款游戏型的幼儿启蒙教育软件,宝宝们在这里可以通过玩游戏的方式学习到各种基础知识,很好地激发他们的学习兴趣。详细内容请感兴趣的朋友前来西西下载体验! 应用简介 儿童宝宝系列教育应用是根据教育部新颁布的《3-6岁…

推荐几款适合孩子玩的编程游戏

在上一篇文章《孩子喜欢玩iPad等电子产品怎么办》中,我们鼓励家长合理控制孩子的屏幕时间,与此同时,为孩子挑选合适的电子消费内容同样重要。 今天就给大家推荐几款可以鼓励孩子玩的游戏,让孩子们在玩游戏的过程中学习编程。 1. k…

ChatGPT4已经来了,30秒做一个弹球游戏!

前两周写了关于ChatGPT的文章, 折腾了一晚!终于开通了ChatGPT plus版本! ChatGPT_Plus的功能有多强!3分钟写一个贪吃蛇游戏! 然后果断的注册了Plus, 事实证明这个决定是对的,现在只有plus 可以抢先尝鲜GPT4…

TwinCAT3中授权码激活操作的详细步骤和注意事项

前言 倍福的PLC在购买以后通常需要根据自己的需求购买对应的软件授权模块,这样就需要自行进行软件激活操作,本文详细阐述了PLC激活软件模块的操作步骤和注意事项,以供工程师参考。 步骤一 License ID和所购买的对应授权软件模块必须同时提…

chatgpt赋能python:Python中4.5/2:浮点数除法的谬误

Python中4.5/2:浮点数除法的谬误 在Python中,当我们尝试对两个整数进行除法运算时,通常可以得到预期的正确结果。但是,当我们的被除数或者除数是浮点数时,可能会遇到令人疑惑的结果。 例如,执行4.5/2的计…

文心一言的魔性作图,我愣住了

上一篇:985高校副教授晒年薪,公积金顶普通人月薪,网友:不愧是在上海! 前几天收到文心一言的测试邀请,使用后感觉部分领域比如历史还是表现的可圈可点,具体可查看文心一言开箱测试。 今天看到网友…

office办公技能|ppt内嵌视频

一、ppt中插入视频 (一)ppt内嵌法 操作步骤:插入-视频-PC上的视频 内嵌法的好处就是视频直接插入了PPT之中,无需另外携带,播放时不用另外跳转播放器,PPT的完整度高!缺点就是可能面临换台电脑播…

6pen Art - AI绘画平台

文章目录 AIGC什么是AI作画?Prompt6pen ArtAIGC的未来发展结语 AIGC AIGC(AI Generated Content)是指利用人工智能生成内容。是利用人工智能来生成你所需要的内容,GC的意思是创作内容。与之相对应的概念中,比较熟知的还…