RWKV:在Transformer时代重振RNN

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Transformer】交流群

梦晨 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

ChatGPT爆火以来,大语言模型和Transformer几乎成了同义词,然而真的如此吗?

刚刚,一个由国人主导,总共27所大学、研究机构和公司组成的开源研究团队,联名发表重磅论文《RWKV:在Transformer的时代重新发明RNN》,受到学术界大量关注。

d8097f59401f5796b6cad6c23f45eccf.png

RWKV就是论文中提出的新深度学习模型架构,以循环神经网络RNN为基础魔改而来。

实际上RWKV模型的开源发布比论文要早不少,并且已经在开源社区和行业内产生不小影响力。

0459d7b155c8e8d244b28944f3454207.png

其创始人彭博在知乎等平台也非常活跃。

d19e7d30c81ec372c7c8b635dfc28710.png

在人类玩家打分的大模型匿名竞技场Chatbot Arena最新一期榜单中,RWKV在一众Transformer中排名第6,并且与7-11名相比拉开一个分数段。

6b459a72e8c728459bdd6e0a52c15a03.png

并且RWKV也有在线Demo可玩。(地址在文末)

有意思的是,参与论文的EleutherAI实验室表示,论文还不是完全版本,由于不便公布的截止日期而被迫提前发布,以后还会继续完善。

a1c914859e7e9a5fc864ff559d4113bb.png

那么就先来看一下,到目前为止RWKV团队都做出了哪些成果。

时间复杂度比GPT低‍‍

RWKV设计灵感来自苹果21年的研究《An Attention Free Transform》,团队意识到如果在公式中使用循环矩阵(circular matrices)就可以将网络结构写成RNN。

与GPT系列的时间复杂度O(n^2)相比,RNN的时间复杂度只有O(n),空间复杂度是O(1)。

这意味着生成内容的速度不会随长度而夸张增涨,显存占用也是恒定的。

一作彭博在接受36kr采访时曾这样形容:

GPT每写一个字就要重新看一遍前面所有文字,效率很低。而RWKV就相当于人类读了一遍资料后,在不再看资料的情况下直接回答。

传统RNN由于并行化的方式难以扩大规模,RWKV通过使每个通道的时间衰减与数据无关,可以在训练期间像Transformer一样做并行化。

6f8788c63066fe952d66b44786b1f925.png

训练好的140亿参数RWKV在多个数据集上的表现与开源Transformer大模型相当。

3f7ecb5c72da6cfb04a71f4f9d2a5ae1.png

另外团队指出RWKV并非没有缺陷,虽然大致与Transformer的性能匹配,但对提示更敏感,并难以整合非常长的信息。

物理出身现在卖灯的论文一作

RWKV背后是一支不小的论文团队,总共27家大学、研究机构和公司组成,作者达30人。

论文一作Peng Bo,毕业于香港大学物理系,编程经验20+年,曾在世界最大外汇对冲基金之一Ortus Capital就职,负责高频量化交易。

还出版过一本关于深度卷积网络的书籍《深度卷积网络·原理与实践》。

382399d3be85b480bd47e49afa359902.png

他的主要关注和兴趣方向在软硬件开发方面,在此前的公开访谈中,他曾明确表示AIGC是自己的兴趣所在,尤其是小说生成。

目前,Peng Bo在Github有1.3k的followers,知乎粉丝已经超过了11万人,随着RWKV论文的发布,这个数字还在增加。

除了关注RWKV模型、论文发布和最新进展,吃瓜网友们最讶异的还是Peng Bo的身份之多样:

不仅仅是RWKV模型一作、元智能OS创始人,他的最主要公开身份是一家灯具公司禀临科技的联合创始人,主要是做阳光灯、吸顶灯、便携台灯什么的。

乍一看这个跨行有点猛,物理出生,搞过量化金融,写了20年程序,然后主业卖灯,根据爱好搞了个大模型,走的还不是主流transformer路线……

并且Peng Bo本人应该是一个喵星人资深爱好者,Github、知乎、微信头像,以及灯具公司的官网首页、微博上,都有一只黄色橘猫的身影。

901c4ff9d424527fe847b99462f56b91.png

ps. 如果你也好奇RWKV这个词该怎么读,根据元智能OS团队在播客《三五环》的读法,应该是“Rua库”

论文地址:
https://arxiv.org/abs/2305.13048
RWKV模型下载:
https://huggingface.co/BlinkDL/rwkv-4-raven
在线试玩:
https://www.codewithgpu.com/i/app/BlinkDL/ChatRWKV/RWKV-4-Raven-7B

参考链接:
[1]https://twitter.com/AiEleuther/status/1660811180901019648
[2]https://zhuanlan.zhihu.com/p/618011122
[3]https://36kr.com/p/2257744759205508
[4]https://www.xiaoyuzhoufm.com/episode/645b68e0306513184c97034b

点击进入—>【Transformer】交流群

最新CVPR 2023论文和代码下载

 

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看3ca464aa603039bea6b4ff8a534eee9e.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/17939.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

上海成国内开发者收入最高城市,2022 全球程序员收入报告出炉!

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 在科技迅速发展的时代,各行业对程序员的需求持续增长,程序员作科技市场的“重要基石”,薪资一直是非常“能打”的存在。 近日,美国科技公…

好好讲话--《即兴演讲:掌控人生的关键时刻》

最近在微信听书上听到了一个比较好的课程–《即兴演讲,张口就说》,总共12节,细致的讲解了即兴演讲的技巧和经验。 突然想起来读过的这本书,于是就重新拿出来翻了翻。 和上面的课程进行了一个简单的对比,发现&#xf…

对话OpenAI研究科学家:他们是如何让GPT4更像人的?

ChatGPT不是一次伟大创新的产物,而是许多个阶段性创新持续叠加的结果。 文 | Aparna Dhinakaran 究竟是怎样的大脑创造出了跨时代的ChatGPT?作为ChatGPT的姊妹模型,InstructGPT的核心技术和ChatGPT有很多相通之处。 近期,美国AI可…

记北京Linux用户组2008年第一次活动——串夜派对NO.1

串夜派对NO.1<o:p></o:p> 上周四&#xff0c;周老师&#xff08;博文视点副总&#xff09;告诉我&#xff0c;孟岩老师&#xff08;《程序员》技术总监&#xff09;要带我去参加BJUG Linux用户组组织的一个活动。当时我有些纳闷&#xff0c;有这样的活动我怎么不知…

ZT 80-90年代港台300部电视剧 你看过多少?

80-90年代港台300部电视剧 你看过多少&#xff1f; [复制链接] 噗噗 738主题18精华 万家金领 发消息 发表于 2010-4-27 09:01:02 | 显示全部楼层 1、&#xff08;珍珠传奇&#xff09; 施 思 寇世勋 姜厚任 台湾古装剧     2、&#xff08;法网柔情&#xff09; 米 雪 刘…

SparkCore-RDD编程

SparkCore-RDD编程操作 0. 大纲 Spark程序的执行过程RDD的操作 RDD的转换操作共享变量 高级排序 1. Spark程序执行过程 1.1. WordCount案例程序的执行过程 1.2. Spark程序执行流程 2. RDD的操作 ​ At a high level, every Spark application consists of a driver program…

有了这个Python库,再也不愁给孩子起名字了

后台回复1024&#xff0c;解锁无限快乐&#xff01; 你是不是曾经为了给孩子起名字而左思右想&#xff0c;抓耳挠腮&#xff1f; 今天&#xff0c;我为你带来一款永久且快速的解决方案&#xff0c;让你再也不会为给孩子起名而苦恼了&#xff0c;无论生多少个&#xff0c;起名都…

深挖GPT-4背后的技术方向,华人开发者成绩斐然

源&#xff5c;机器之心 始于谷歌&#xff0c;发迹于 OpenAI&#xff0c;这是很多 GPT-4 贡献者的职业轨迹。 这个星期&#xff0c;OpenAI 大模型 GPT-4 的发布让全球科技圈的技术竞争进入了白热化。几天之内&#xff0c;ChatGPT、必应搜索和 Microsoft 365 相继接入 GPT-4&…

火狐十大必用插件

十个个必装的火狐插件 也许这十个中其中某个或者几个并适合中国人用&#xff0c;当我至少有3个在用&#xff01; 上次我们为必装的火狐扩展进行排行 已经是两年前的事了。而现在的新 排行做出了一些必要的更新&#xff0c;和上次一样以即点即用的形式为大家展现这次的大师级最…

火狐的一些实用插件

Firefox Firefox是一一个出自Mozilla组织的流行的Web浏览器。Firefox的流行并不仅仅是因为它是一-个好的浏览器&#xff0c;而且它能够支持插件进而加强它自身的功能。 Mozilla 有一个插件站点&#xff0c;在那里面有成千上万非常有用的插件。一些插件对于渗透测试人员和安全…

推荐几个火狐浏览器插件

目前&#xff0c;谷歌浏览器市场占有率最高&#xff0c;谷歌公司号称不作恶&#xff0c;实际上也作了一些恶&#xff0c;只不过底线比百度高一点。因为各类屏蔽广告的插件有损谷歌自己投放的广告的收益&#xff0c;因此谷歌对广告屏蔽插件下手了&#xff0c;削弱插件的屏蔽效果…

Firefox火狐浏览器插件大全

Firefox火狐浏览器 软件版本&#xff1a;51.0.1 简体中文版软件大小&#xff1a;666KB软件授权&#xff1a;免费适用平台&#xff1a; WinXP Win2003 Vista Win8 Win7 Win10下载地址&#xff1a;http://dl.pconline.com.cn/download/52175.html 立即下载 一、浏览器功能扩展组…

fireFox post请求插件,火狐浏览器插件

在开发过程中&#xff0c;为了测试数据&#xff0c;提交表单等。经常会用到post请求&#xff1b;在这里向大家介绍一款比较好用的浏览器插件&#xff0c;它可以很好的模拟post&#xff0c;get&#xff0c;put等常用的请求。大大便利了我们的开发。它就是fire fox中的RESTClient…

用nodejs搭建代理服务器

代理服务器的原理 案例 安装 express、http-proxy-middlewareapp.js 文件 node app.jsvar express require(express); var app express(); app.use(express.static(./public)); app.listen(3000);在 public 文件夹下建立 a.html<!DOCTYPE html> <html lang"en…

VSCode连GitHub的代理服务器配置和获取历史版本命令

1. 在VSCode中配置代理&#xff1a; 在设置中查找“Proxy”直接编辑配置文件。或者在如下菜单中点击打开配置文件 在配置文件中添加如下两条。注意http和https的代理都要配置上 "http.proxy": "http://192.168.8.*:8080", "https.proxy": &quo…

巴比特 | 元宇宙每日必读:围剿ChatGPT?继意大利之后,法国、西班牙也对ChatGPT展开调查,欧盟监管机构已成立调查组...

摘要&#xff1a;据财联社报道&#xff0c;自去年末以来&#xff0c;ChatGPT人工智能机器人在全球引发高度关注。在人们为该AI系统表现出的强大能力所惊叹的同时&#xff0c;其数据准确性及隐私相关问题也引发人们的担忧。在意大利最早对ChatGPT采取了监管举措后&#xff0c;当…

AIGC用于智能写作的技术综述-达观数据

导语 图1. ChatGPT生成的关于智能写作的介绍 智能写作指使用自然语言处理技术来自动生成文本内容。这种技术通过分析给定语料库&#xff0c;学习文本的结构和语法&#xff0c;然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容&#xff0c;并且可…

谷歌Bard是拿ChatGPT数据训练的?BERT一作抗议无果,跳槽OpenAI...

点击下方卡片&#xff0c;关注“CVer”公众号 AI/CV重磅干货&#xff0c;第一时间送达 点击进入—>【多模态学习】微信技术交流群 转载自&#xff1a;机器之心 谷歌顶尖科学家向皮查伊、Jeff Dean 请愿未果&#xff0c;最后只好跳槽 OpenAI。 打不过就加入&#xff0c;打不过…

Bard是拿ChatGPT数据训练的?谷歌顶级科学家抗议无果,出走OpenAI

源 | 机器之心 谷歌顶尖科学家向皮查伊、Jeff Dean 请愿未果&#xff0c;最后只好跳槽 OpenAI。 打不过就加入&#xff0c;打不过就直接用&#xff1f; 相比成为科技领域里程碑的 ChatGPT&#xff0c;谷歌推出的竞品 Bard 亮相似乎并不令人印象深刻&#xff0c;对于这家科技巨头…

借助 ChatGPT 编写的 libbpf eBPF 工具开发实践教程: 通过例子学习 eBPF

这是一个基于 CO-RE&#xff08;一次编译&#xff0c;到处运行&#xff09;的 libbpf 的 eBPF 的开发教程&#xff0c;提供了从入门到进阶的 eBPF 开发实践指南&#xff0c;包括基本概念、代码实例、实际应用等内容。我们主要提供了一些 eBPF 工具的案例&#xff0c;帮助开发者…