性能高于Transformer模型1.7-2倍,彩云科技发布基于DCFormer架构通用大模型云锦天章

2017年,谷歌发布《Attention Is All You Need》论文,首次提出Transformer架构,掀开了人工智能自然语言处理(NLP)领域发展的全新篇章。Transformer架构作为神经网络学习中最重要的架构,成为后来席卷全球的一系列通用大模型如ChatGPT、Gemini的底层技术支撑。而提升Transformer的运行效率也成为人工智能领域的研究热点,2024年4月,谷歌最近一次更新了Transformer架构,提出了Mixture-of-Depths(MoD)方法,使得训练后采样过程中提速50%,成为Transformer架构提速升级的又一重要事件。

同样在今年,一家来自国内的人工智能企业彩云科技,在国际机器学习领域的顶级会议ICML(国际机器学习大会)上,发布全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》。在该论文中,彩云科技团队首次发布DCFormer架构,并在基于DCFormer打造的模型DCPythia-6.9B上,实现了在预训练困惑度和下游任务评估上都优于开源Pythia-12B。这意味着,DCFormer模型在性能上,实现了对Transformer模型1.7-2倍的提升。

11月13日,彩云科技在北京总部与媒体进行一场主题为“From Paper to App”的沟通会。会上,彩云科技CEO袁行远,就通用大模型未来进化之路,与人工智能的落地场景等热点话题进行了交流,并正式推出了首款基于DCFormer架构开发的通用大模型云锦天章,与此同时,彩云科技旗下AI RPG平台彩云小梦,也成为首款基于DCFormer架构开发的AI产品。

只有模型效率和智能度提升 才能实现真正的AGI

沟通会现场,袁行远首先向参会者展示了一个ChatGPT o1的问答:“假设ChatGPT4每天响应用户约2亿个请求,消耗超过50万千瓦时的电力。假设全球网络都使用ChatGPT作为访问入口,ChatGPT每天消耗多少电力?另外按照这个速度发展下去,到2050年全球人工智能的耗电量会达到目前地球发电能力的多少倍?”ChatGPT o1给出的答案是,“到2050年,全球人工智能的耗电量可能会达到目前地球发电能力的8倍”。

同样的问题,在今年2月份的世界政府峰会上,英伟达CEO黄仁勋有更为夸张的表述,“假设计算机的速度永远不会变快,我们可能需要14个不同的行星、3个不同星系、4个太阳为这一切(AI)提供燃料。”AI对能源的强大需求在业内已经是共识,英伟达致力于通过提升硬件来提升AI效率,降低能耗;而袁行远则认为,改善大模型底层架构,提升人工智能运行效率,是改变AI能源困局的更优路径。

“Scaling Law告诉我们,随着算力的提升,模型更大、数据更多,模型效果会越来越好,但与之相应的,能耗也会越来越高,在Scaling Law失效,人工智能实现之前,或许我们地球的能源就已经无法支撑了。”袁行远表示,“没有效率的提升,AI就是镜花水月。”

彩云科技团队构建DCFormer框架,提出可动态组合的多头注意力(DCMHA),替换Transformer核心组件多头注意力模块(MHA),解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力,由此实现了对Transformer架构1.7—2倍的性能提升。

今年的ICML会议上,彩云科技团队的3篇论文,在录用平均分为4.25-6.33的情况下,获得平均7分的高分,并成为国内唯二受邀参加维也纳ICML 2024登台演讲的企业,另一家则是华为。

袁行远表示:我们的工作表明,Transformer架构距离“理想模型架构”还有很大的提升空间,除了堆算力堆数据的“大力出奇迹”路线,模型架构创新同样大有可为。往小了说,在大模型领域,利用效率更高的模型架构,小公司也可以在与世界顶级人工智能企业的对抗中取得优势。往大了说,模型效率的提升,可以有效地降低人工智能升级迭代的成本,加速AI时代的到来。

云锦天章问世 首个基于DCFormer架构的通用大模型

作为国内最早做LLM(大语言模型)的公司之一,彩云科技在2017年就已经开始做NLP和大模型方面的工作。目前,彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向C端用户的AI产品,是国内为数不多能够实现盈利的人工智能公司。

“世界最强的小说续写通用模型。”沟通会上,袁行远向大家展示了首个基于DCFormer架构的通用大模型云锦天章。“这个成语是比喻文章极为高雅、华美,和我们的大模型想要实现的效果有共通之处。”袁行远介绍,云锦天章可以实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换,同时兼具其他模型的问答、数学、编程等基础能力。

而在应用端,拥有四百万用户的彩云小梦,也迎来了基于全新DCFormer架构的V.3.5版本。与之前的版本相比,彩云小梦V3.5整体流畅性和连贯性提升了20%,支持前文长度由2000字提升至10000字,故事背景设定最长长度高达10000字。“这意味着,在故事创作或者与人工智能对话中,人工智能能够记住之前发生的事情,记住之前故事里发生的细节,人物记得自己明确的目标,并且会根据剧情及时进行反思修正。在做到自主创作的同时,发散性收敛,不会天马行空,人物性格前后一致,故事逻辑性更强。”

“深度对话,超长记忆,逻辑清晰。”袁行远总结彩云小梦V3.5的特征,“我们的目标是为用户打造指尖伴侣定制梦境。”袁行远表示,彩云小梦的用户单次使用时长,累计使用时长在同类产品中都处于遥遥领先的地位,“对话超过400句,你会发现彩云小梦真正的魅力。”

袁行远介绍,公司接下来将继续加大对DCFormer的研究和投入:“一方面有打破‘国外做技术层,国内做应用层’刻板印象的情怀所在,一方面也是为公司自有产品应对市场竞争,实现快速迭代升级和能力领先的现实需要。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/473182.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

函数指针示例

目录&#xff1a; 代码&#xff1a; main.c #include <stdio.h> #include <stdlib.h>int Max(int x, int y); int Min(int x, int y);int main(int argc, char**argv) {int x,y;scanf("%d",&x);scanf("%d",&y);int select;printf(&q…

【书生大模型实战营 闯关材料】入门岛:第4关 玩转HF/魔搭/魔乐社区

2.1.2-2.1.3 InternLM 模型下载 模型下载 使用Hugging Face平台、魔搭社区平台&#xff08;可选&#xff09;和魔乐社区平台&#xff08;可选&#xff09;下载文档中提到的模型&#xff08;至少需要下载config.json文件、model.safetensors.index.json文件&#xff09;&#x…

Android - Pixel 6a 手机OS 由 Android 15 降级到 Android 14 操作记录

Pixel 6a 手机由 Android 14 升级到 Android 15了&#xff0c;但是由于一些原因又想降级回 Android 14&#xff0c; 能降吗&#xff1f;该怎么降级呢&#xff1f;本篇文章来记述实际操作过程&#xff0c;希望能给想做相同操作的人一些帮助。 答案当然是能降&#xff0c;而且我…

python-文件内容操作

文章目录 文件的介绍文件的理解文件操作基本知识文件对象属性与常用方法文件的读取文件的写入**上下文管理语句 with****读CSV文件**二维数据的存储从CSV格式的文件中读取数据将数据写入CSV格式的文件 读取Excel格式数据文件(pandas库)读取Excel格式数据文件(pandas库) 文件的介…

《操作系统 - 清华大学》3 -3:连续内存分配:内存碎片与分区的动态分配

文章目录 0. 概述1. 内存碎片问题2. 动态分配3. 首次适配算法4. 最优适配算法5. 最差适配算法 0. 概述 内存分配是操作系统管理过程中很重要的环节&#xff0c;首先需要考虑的是一块连续区域分配的过程&#xff0c;这个过程中会有很多问题&#xff0c;首先比较关注的一个问题是…

7.高可用集群架构Keepalived双主热备原理

一. 高可用集群架构Keepalived双主热备原理 (1)主机+备机keepalived配置(192.168.1.171) ! Configuration File for keepalivedglobal_defs {# 路由id:当前安装keepalived节点主机的标识符,全局唯一router_id keep_101 } #计算机节点(主机配置) vrrp_instance VI_1 {</

Notepad++的完美替代

由于Notepad的作者曾发表过可能在开发者代码中植入恶意软件的言论&#xff0c;他备受指责。在此&#xff0c;我向大家推荐一个Notepad的完美替代品——NotepadNext和Notepad--。 1、NotepadNext NotepadNext的特点&#xff1a; 1、跨平台兼容性 NotepadNext基于Electron或Qt…

【Chapter 3】Machine Learning Classification Case_Prediction of diabetes-XGBoost

文章目录 1、XGBoost Algorithm2、Comparison of algorithm implementation between Python code and Sentosa_DSML community edition(1) Data reading and statistical analysis(2)Data preprocessing(3)Model Training and Evaluation(4)Model visualization 3、summarize 1…

Linux(CentOS)安装达梦数据库 dm8

CentOS版本&#xff1a;CentOS 7&#xff0c;查看操作系统版本信息&#xff0c;请查阅 查看Linux内核版本信息 达梦数据库版本&#xff1a;dm8 一、获取 dm8 安装文件 1、下载安装文件 打开达梦官网&#xff1a;https://www.dameng.com/ 下载的文件 解压后的文件 2、上传安…

ReactPress与WordPress:两大开源发布平台的对比与选择

ReactPress与WordPress&#xff1a;两大开源发布平台的对比与选择 在当今数字化时代&#xff0c;内容管理系统&#xff08;CMS&#xff09;已成为各类网站和应用的核心组成部分。两款备受欢迎的开源发布平台——ReactPress和WordPress&#xff0c;各自拥有独特的优势和特点&am…

前后端请求响应

引入 在之前的例子中&#xff0c;我们编写了一个简单的web类&#xff0c;我们运行启动类&#xff0c;启动内嵌的tomcat后就可以在浏览器通过特定的路径访问tomcat中的应用程序。 但之前编写的程序仅仅是个简单的java类&#xff0c;其并未实现某个接口或继承某个类&…

Ubuntu24 上安装搜狗输入法

link 首先在终端中依次输入以下代码 sudo apt update sudo apt install fcitx 找到语言支持 在终端中依次输入 sudo cp /usr/share/applications/fcitx.desktop /etc/xdg/autostart/ sudo apt purge ibus 进入网页 搜狗输入法linux-首页​ shurufa.sogou.com/linux 找到刚才下…

Linux从0——1之shell编程4

声明&#xff01; 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下&#xff0c;如涉及侵权马上删除文章&#xff0c;笔记只是方便各位师傅的学习和探讨&#xff0c;文章所提到的网站以及内容&#xff0c;只做学习交流&#xff0c;其他均与本人以及泷羽sec团队无关&a…

嵌入式硬件杂谈(二)-芯片输入接入0.1uf电容的本质(退耦电容)

引言&#xff1a;对于嵌入式硬件这个庞大的知识体系而言&#xff0c;太多离散的知识点很容易疏漏&#xff0c;因此对于这些容易忘记甚至不明白的知识点做成一个梳理&#xff0c;供大家参考以及学习&#xff0c;本文主要针对芯片输入接入0.1uf电容的本质的知识点的进行学习。 目…

树莓派4B Qt+FFMPEG 多线程录制USB相机mjpeg数据流“h264_omx“硬件编码的MP4文件

文章目录 1 前言2 一些问题说明2.0 树莓派4b系统版本2.1 Qt2.2 FFMPEG2.3 图像格式 3 核心代码3.0 代码逻辑3.1 pro文件3.2 avframequeue.cpp3.3 decodethread.cpp 4 资源下载 1 前言 本项目为在树莓派4B开发板上&#xff0c;通过QtFFMPEG以多线程分别解码、编码USB摄像头视频数…

Cartographer激光雷达slam -20241116

Cartographer Cartographer代码结构 cartographer&#xff1a;负责处理来自雷达、IMU和里程计的数据并基于这些数据进行地图的构建&#xff0c;是cartographer理论的底层实现cartographer_ros&#xff1a;基于ros的通信机制获取传感器的数据并将它们转换成cartographer中定义…

Scratch 014生日贺卡(上)

知识回顾&#xff1a; 1、“面向鼠标指针”积木块 2、“重复执行直到”积木块 本次分享制作生日贺卡引入广播模块 案列效果&#xff1a; 生日贺卡上案例效果-CSDN直播 步骤拆解&#xff1a; 1、添加背景和角色 2、编辑贺卡造型添加名字 3、流程图的组成和画法 4、…

外网访问 WebDav 服务

从外部网络环境&#xff08;比如异地和家中网络&#xff09;来访问公司内网的 WebDav 服务&#xff08;基于 IIS &#xff09;并映射成本地虚拟磁盘。 步骤如下 第一步 在公司内网的电脑上设置 webDav。 1&#xff0c;找到【控制面板】&#xff0c;双击进入。 2&#xff0c…

渑池县中药材产业党委莅临河南广宇企业管理集团有限公司参观交流

11月14日&#xff0c;渑池县人大副主任、工商联主席杨航率县中药材产业党委代表团一行13人&#xff0c;莅临河南广宇集团参观交流。河南广宇集团总经理王峰、副总经理王培等领导热情接待并陪同参观、座谈。 代表团一行首先参观了集团旗下郑州美信中医院&#xff08;庚贤堂中医药…

WP网站如何增加文章/页面的自定义模板

通过Wordpress我们后台在发布文章或者页面的时候其实可以看到有些主题 他有选择使用的页面模板&#xff0c;可以自定义模板&#xff0c;但是有些主题却没有选择主题这个功能&#xff0c;那这个自定义模板的功能是如何实现的呢&#xff1f;以下分两种情况&#xff1a;Page页面和…