震惊!使用RNN就能达到超越GPT的对话效果!甚至超越LLaMA? Github已近万star

大家好,我是zenRRan,最近在群里发现小伙伴分享了一篇极为震撼的文章:通过纯RNN架构竟然达到甚至超越以GPT为base的大语言模型的性能。刚开始我还以为是民科呢,但是细细了解后发现作者知乎关注达十几万

6b342205667de7cfa2f47fc24649ad64.png

该项目的github名为The RWKV Language Model[1]项目的star竟然快接近万了。

e0d0f44dec52f0dfd8281a44c1ded624.png

项目介绍

RWKV是具有Transformer级LLM性能的RNN,也可以像GPT transformer一样直接训练(parallelizable)。而且它是 100% 无注意力的。你只需要位置 t 的隐藏状态来计算位置 t+1 的状态。您可以使用“GPT”模式快速计算“RNN”模式的隐藏状态。

因此,它结合了 RNN 和 Transformer 的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限”ctx_len 和自由句子嵌入(使用最终隐藏状态)。

下面还是进入作者的一篇知乎文章来一起看看吧~


知乎:PENG Bo
地址:https://zhuanlan.zhihu.com/p/619721229

进NLP群—>加入NLP交流群

目前 RWKV 所有模型的介绍[2](注意 RWKV 是 100% RNN,目前地球只有我能用 RNN 做到这样)。

下面是 7B Raven-v7-ChnEng 在 ChatRWKV v2 运行的效果(无修改,无重试):

eb12076b5230032ba08629c0daad4149.png83fcdd3cc7ef1d1cd25c200f12bc3b39.png

可见 7B 有时会省略细节,需要你去引导。其实如果写好程序,允许编辑电脑的回答,在电脑的早期回答加入丰富的细节,它也能一直保持细节丰富的风格。注意,目前中文只用了【20G普通+200G网文】,连词表都是英文的(很多中文需要两三个token),稍后的RWKV中文基础模型会强得多

另外可以加入世界设定。例如下面这个 prompt,我用 + 让模型生成了各种开头,都挺好:

32d21c446b52f264d151e1f3580c754f.png

Prompt:请你扮演一个文本冒险游戏,我是游戏主角。这是一个玄幻修真世界,有四大门派。我输入我的行动,请你显示行动结果,并具体描述环境。我的第一个行动是“醒来”,请开始故事。

f3bf89985adcd4154aea64643ccf77f8.png

再看 14B Raven-v7-Eng,这个强,Discord 老外玩的记录(无修改,无重试):

f77179f71cbef13b90e483bdb0474ccb.png961370dfd5516ee7aa23e074e93912c7.png1cf3d38b9ec8b216ec1b753b315f7d54.png00b40242abbc592e134892c9dfbbb6ee.png

另外 Raven 模型可以完成各种任务。例如这是 7B Raven-v7-Eng 写代码(由于这里 topp=0.8,会容易出小错,降低 topp 即可更准确):

7647c878092cc8a5efe912d9db1acbdf.png 4c1d210cfa66abde0810a0f4104b17d9.png

上述这些,如果是 GPT 做到的,一点都不稀奇,技术含量等于 0。

但这些是用 RNN 做到的。如前所述,这个星球上只有我能用 RNN 做到这样。

RWKV 越大越强,而且有能力运用长 ctxlen。而且 RWKV 的算法极其简单,更适合硬件和芯片。

因此,在未来几年,我将用 RWKV 对 transformer 实施全方位降维打击(目前已逐步积聚资源),淘汰 transformer,成为人类所有 AI 大模型的基础架构。

另一个证据是,目前其它团队的设计,无论是 state space 系列,还是 Mega 这种,都在朝 RWKV 的 exponential moving average 方法靠拢,可见 RWKV 就是目前的正解。

在同样语料训练,RWKV vs GPT,zero-shot成绩:

db333cb6369d4f2ccbbe8a0d28149b7e.png

RWKV 的全部设计,研发,优化,从 0.1B 炼到 14B,数据清洗,推广,客服(这个最浪费时间 lol),都是我一个人完成。我一个人会把它先逐级炼到 100B(在 Pile v2 1.7T),首先淘汰 LLaMA。

知乎喷子喜欢神话 OpenAI。而我说过,只要给我优质的数据和算力,我一个人就可以对线 OpenAI。

这不是因为我懂,而是因为 OpenAI 做的事情弱智。因为现在大家都在挑弱智的 low-hanging fruit 去做无脑堆数据堆算力堆人工就行),真正难的问题没人去做。ChatGPT出来我就多次说过GPT系列是弱智研究,技术含量等于0。这不是我的观点,而是全世界所有行家都知道,如果你不知道说明你不是行家。甚至百度等等都可以追上(如果投入去做)。

我认为,为确保真正 Open AI,必须用非盈利基金会,像 Linux 的模式。事实上 Stable Diffusion 对比 DALLE2 就能证明,开源社区的力量胜过一切封闭组织(同时,在这个开源生态中,仍然可以也必须有很多商业公司,欢迎 VC 投资)。

为什么必须做 Open AI,另一个原因是,目前东西方的军备竞赛在不断升级。我长期上外网,外网愚民的想法很简单,就是认为瓷国是邪恶帝国(所以我常说,人类维护统治,最有效方式是造假想敌)。

我认为,全球化的开源 Open AI 有助于保持互信,降低这里的各种风险。至于 AGI 本身的风险,我从前说过,可能是人类必经的考验。

d85509cb66910f21b1e68145bf7fd8ee.png

其实 RWKV 首先应该进入教科书,我起这个名字就是和 LSTM 等等并列的。

35f38ce0bf3d4c20f69672d705301914.png

注意,本文不代表 RWKV 有任何特别之处。我认为 RWKV 是个傻模型,整个设计过于简单,没有数学可言。幸运的是,我起步比较早,所以我是第一个把这个傻模型做出来的人。

为什么发这么个图,因为现在的喷子太多。喷子的特点是自己没有判断能力,只信权威和骗子。所以 RWKV 还得靠专家来认证,无奈。

另外,我经常说对线,因为真正的boss不是OpenAI而是AGI。未来的"AGI"将代表全世界八十亿人的思绪结晶。我是做好准备和八十亿人对线的。如果你不敢和八十亿人对线,你就只能选择投降或降临派。


上面就是知乎的全部内容了,顺便再看看留言吧。

0c2730121a0b3c74baf8113db529df7d.png 9e681bcc9d73c87c9bc883ee70ef0313.png

文章就到这里吧,最后,留给时间去验证吧。

请大家在留言里发表你的观点~


进NLP群—>加入NLP交流群

参考资料

[1]

RWKV: https://github.com/BlinkDL/RWKV-LM

[2]

所有模型的介绍: https://zhuanlan.zhihu.com/p/618011122

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/29441.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GPT-5别整了!

源 | 量子位 GPT-4让大牛慌了,紧急联名成立人类拯救派: 所有AI实验室立即暂停训练GPT-4更先进的AI系统! 至少6个月限期。 包括马斯克、Bengio在内的上千位产学研代表联名发表公开信“暂停巨型AI实验”,瞬间引起轩然大波。 信中强调…

GPT-5别整了!马斯克Bengio等联名疾呼:所有先进AI系统暂停研发6个月

杨净 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4让大牛慌了,紧急联名成立人类拯救派: 所有AI实验室立即暂停训练GPT-4更先进的AI系统! 至少6个月限期。 包括马斯克、Bengio在内的上千位产学研代表联名发表公开信“暂停巨型AI实验”&#xff…

ChatGPT,先养肥了卖课的

作者:深燃 链接:https://zhuanlan.zhihu.com/p/620662534 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 最近,互联网从业者北北发现,身边的大V突然都在用ChatGPT做流…

史上最全Python资料合集,零基础小白学习必备资料

人工智能时代来临,ChatGPT 火热,当代打工人的命运何去何从? 人工智能随着大数据语言模型的发展迎来了爆发,生产力真正开始变革,甚至因为发展太快而出现继续推进GPT5 训练的“降临派”和暂停开发研究的“拯救派”。在未…

一文讲透『大神修炼心法』!35岁让自己过的越来越好!

Cocos 的老铁,如果你这几天没有被麒麟子给卷到?那说明你还没有真正进入 Cocos 圈子里来。为什么这么说呢?看下面。 3月1号 23:57 | 2800字 麒麟子全方位解读 Cocos Cyberpunk 工程源码 - 开篇!3月2号15:54 | 3500字 麒麟子全方位解…

985高校副教授晒年薪,公积金顶普通人月薪,网友:不愧是在上海!

上一篇:帝都某外企裁员,补偿673252.62元 !准备回家躺平了 ! 高考报志愿的时候,一线城市的高校总是格外受欢迎,本地的考生不想往外走,外地的考生想去大城市,导致一线城市的高校录取分…

GPT-4 最全测试,叩开 AGI 的大门!微软 154 页研究论文解读

整理 | 苏宓 本文来源 | CSDN(ID:CSDNnews) 2019 年,微软用 10 亿美元砸进 OpenAI,两者展开为期数年的合作。 当时两家对外公开的合作内容包括,微软和 OpenAI 将联合开发新的 Azure AI 超级计算技术&…

平替这么多!谁能与我一战?GPT-4化身主考官

魏亦豪 投稿 量子位 | QbitAI(本文来源) GPT-4太强,甚至已经化身“主考官”了! 给其他市面上主流的大模型打分,结果自己给了自己最高分: 95.5。(好,给自己留点努力的空间&#xff…

AI 工具合辑盘点(一)持续更新

人工智能技术的发展已经改变了我们的生活,越来越多的AI工具正在被广泛应用于各个领域。ChatGPT这样的代表性AI模型正在大放异彩,为我们带来了无数的便利和惊喜。在本文中,我们将介绍一系列优秀的AI工具,这些工具可以帮助你完成各种…

基于易语言,PC端微信多开

.版本 2.程序集 启动窗口.子程序 取窗口文本, 文本型, , GetWindowText .参数 窗口句柄, 整数型 .局部变量 长度 .局部变量 缓冲, 文本型长度 = 发送消息 (窗口句柄, 14, 0, 0) + 1 缓冲 = 取空白文本 (长度) 发送消息 (窗口句柄, 13, 长度, …

P站-画师通图片如何保存为原图

进入P站-画师通 P站-画师通 打开F12,选中一个图片找到html 找到href https://www.huashi6.com/ href就是下一级页面 进入子页面,打开F12,选中图片 其中data-original连接是图片地址 https://img2.huashi6.com/images/resource/2018/02/08/67162h18…

游戏角色原画图怎么画?学游戏原画的详细步骤是什么?

很多喜欢角色原画的小伙伴都想着自己某天可以画出自己心中的角色原画人物,对于零基础角色原画萌新来说,非常的想拿起画笔自己创作,那么萌新学角色原画应该怎么学呢? 下面小编就给大家详细的罗列一下,角色原画应该如何一…

NLP中的对话机器人——预训练基准模型

引言 本文是七月在线《NLP中的对话机器人》的视频笔记,主要介绍FAQ问答型聊天机器人的实现。 场景二 上篇文章中我们解决了给定一个问题和一些回答,从中找到最佳回答的任务。 在场景二中,我们来实现: 给定新问题,从…

bp神经网络训练函数选择,BP神经网络训练过程

BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络的训练集需要大样本吗?一般样本个数为多少? BP神经网络样本数有什么影响学习神经网络这段时间,有一个疑问,BP神经网络中训练的次数指的网…

利用BP神经网络对语音特征信号数据集进行分类

最近给学院老师的一篇论文帮忙改进BP神经网络,由于最后要发表论文,神经网络必须自己手写,搞了几个晚上,总算把基础的BP神经网络写出来,接下来再把老师的改进算法实现就ok了。**(当然那代码不能公开了&#…

英语口语中的音变现象及读音规则

英语口语中的音变现象是指再说英语的过程中出于“省力” 的原因,在读英语的时候唇舌处于放松的状态,可以让我们更轻松地说英语。音变现象包括:连读,弱读,缩读,浊化,异化。这五大音变现象最具有代…

Speech Representation预训练模型综述

最近在看Speech Representation预训练相关的论文,NLP的Bert模型大杀四方后,语音领域也开始涌现一些优秀的预训练模型,比如:Mockingjay,Wav2Vec,PASE,DeCoAR系列。 《Probing acoustic represen…

【综述】NLP 对抗训练(FGM、PGD、FreeAT、YOPO、FreeLB、SMART)

在对抗训练中关键的是需要找到对抗样本,通常是对原始的输入添加一定的扰动来构造,然后放给模型训练,这样模型就有了识别对抗样本的能力。其中的关键技术在于如果构造扰动,使得模型在不同的攻击样本中均能够具备较强的识别性 对抗…

端到端语音识别模型LAS(listen-attention-spell)

目录 端到端语音识别模型LAS介绍:模型:模型代码片段 端到端语音识别模型LAS Listen, Attend and Spell (LAS)的神经网络结构,由listener和speller组成,listener是以fbank为输入的pyramidal RNN encoder,speller是基于…

微调Whisper语音识别模型和加速推理

前言 OpenAI在开源了号称其英文语音辨识能力已达到人类水准的Whisper项目,且它亦支持其它98种语言的自动语音辨识。Whisper所提供的自动语音识与翻译任务,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。本项目主要的目的是为了…