GPT时代,寻找讯飞星火大模型的算力支点

作者 | 辰纹

来源 | 洞见新研社

大模型的“涌现”还在持续。

5月底举行的中关村论坛上,有专家披露,中国10亿级参数规模以上的大模型已经发布了79个,刚刚结束的世界人工智能大会上,又有一批大模型批量发布。

大模型的热度居高不下,世界人工智能大会甚至还设置了一个“迈向通用人工智能”主题的展区,集中展示国内外总计30多款大模型。

我们看到的大模型“涌现”是表面,背后到底是什么促成了大模型的“涌现”呢?

昇腾人工智能产业高峰论坛上,科大讯飞高级副总裁、认知智能全国重点实验室主任胡国平现场演示了星火大模型的各项能力,由星火大模型再进行延伸,算力底座的支撑作用成为大模型竞争的焦点。

1.后发先至,星火大模型挤进第一阵营

不得不说,科大讯飞的嗅觉还是很敏锐的。

OpenAI去年11月30日发布ChatGPT后仅仅15天(12月15日),科大讯飞就启动了“1+N”认知智能大模型的专项攻关,5个多月后(5月6日),星火认知大模型正式发布,一个月后的6月9日,星火认知大模型V1.5发布。

根据科大讯飞的计划,今年内星火大模型还将有两次重大升级,分别是:

8月15日,代码能力升级以及多模态交互能力提升;

10月24日,实现通用模型对标ChatGPT,中文超越ChatGPT的当前版本,英文能做到相当水平,并在教育、医疗等领域做到业界领先。

一个值得关注的点,与其他大模型有所不同,星火认知大模型采用“1+N”的架构,其中“1”指的是通用认知智能大模型,“N”就是大模型在垂直领域的落地。

根据胡国平的分享,目前星火大模型已经在教育、办公、汽车、医疗、工业等领域落地,在多个行业场景实现了从0到1的创新应用。

光说不练假把式,星火大模型的实际表现到底如何,我们一起来看看胡国平的现场演示。

首先测试的是星火大模型的文本生成能力,胡国平出了一个“用诗歌的方式畅想通用人工智能实现后的世界”的任务,大模型随即给出回答——“通用人工智能来临日,世界改变如风起,智慧无边触手可及,人类生活焕然一新,自动驾驶驰骋天地……”

语言理解方面,星火大模型不仅能够理顺上下文的关系,甚至对于类似“宁死不屈”和“能屈能伸”这类词汇,也能够清楚的进行辩证理解和场景化的应用。

知识问答维度,星火大模型能够基于搜索结果之上,运用大模型的语言理解和综合表达能力给出更有针对性的回答。

逻辑推理是考验大模型智慧水平的关键任务,讯飞星火经过两个版本的迭代,现在对于“农夫带着狼、羊、菜一起过河”这种组合限制下的复杂推理都能非常好的完成。

根据胡国平的介绍,星火大模型的数学能力和代码能力在发布后也有了长足进步,其中数学能力对于高中阶段涉及到的几何和代数问题都能按照步骤准确的给出答案,代码能力也有了新的突破,特别是Python的代码生成能力已经达到了比较高的水平。

最后演示的多模态能力,根据胡国平的任务指令,星火大模型很快生成了一段散文文本,同时使用一个女生形象的虚拟人主播朗诵这篇散文。

很显然,星火大模型的表现非常出色,经科学、系统地评测,“讯飞星火认知大模型”在国内可测的现有系统中处于领先水平。

星火大模型从立项到发布,再到迭代,每个节点留给研发训练的时间都非常短,但就其展现出来的能力和效果来看,却能稳居中国主要大模型的第一梯队,在其背后到底藏着哪些秘密呢?

2.惊艳之余,看清昇腾算力底座的成色

除了科大讯飞多年来在认知智能领域形成了深厚的技术储备和积累之外,由昇腾AI支撑的算力底座尤为关键。

大模型训练首先要求满足的条件就是大算力。

有行业专家做过测算,完成一个千亿参数级别的大模型,例如GPT-3需要314 ZFLOPs算力的模型训练,当单卡只有312 TFLOPS算力时,用一张卡训练一个模型要耗时32年。

因而引入分布式训练解决方案,通过建立AI芯片集群的方式来加速模型训练成为当前行业的主流。

可是,当芯片集群越来越大,由于大模型被并行切分到集群,模型切片间会产生大量的多卡通信、节点通信,此时对集群的通信能力也提出了更高的要求。

由此可见,大模型训练既考验算力的大小,还考验算力集群工程化、系统化的能力。

还是以星火大模型为例,整个模型训练的时间很短,而其迭代的速度又很快,这也意味着在算力之外,模型训练的稳定性和可扩展性也要有很好的表现。

我们来看看昇腾AI集群是如何做到的。

首先,整机系统升级后,把计算、存储、网络、能源这些要素全部整合在一起,相当于把AI数据中心打造成一台AI超级计算机,实现了能效的倍增。

其次,基于背板总线的架构设计,实现全节点盲插和精准液冷散热,具备更大的算力密度,以及低于1.15的PUE,让算力中心更加绿色,并可实现更加灵活的扩展和部署。

最后,通过节点、机柜、集群、作业级的多级可靠设计,实现了系统级故障的可诊断、可预测、可衡量、可恢复,能保持30天以上的稳定训练周期,实现高可用性。

其实,早在2019年,昇腾AI就已经开始了千卡集群的探索,当时只有4000张卡的规模,于2020年落地商用;刚刚结束的昇腾人工智能产业高峰论坛上,华为宣布昇腾AI集群全面升级,集群规模已经扩展到16000张卡,这也是说,一个1750亿参数,100B数据的大模型,大概半天时间就可以完成一次训练。

事实上,支持星火大模型研发和训练只是昇腾AI能力的一个缩影,更高层级中,昇腾AI还广泛参与到全国20多个人工智能计算中心的建设,包括武汉、北京、西安、成都、大连、沈阳等在内,已经有7个城市获得了国家的认可,成为科技部首批国家新一代人工智能公共算力开放创新平台。

与此同时,昇腾AI还支持了近一半的中国原创模型的开发,根据今年5月份发布的《中国人工智能大模型地图研究报告》统计,国内10亿参数规模以上的大模型,有30多个是基于昇腾原生的开源和适配,覆盖了NLP、多模态、云、语音等多个领域。

如此多的项目,让昇腾AI积累了大量的经验,因而在推动大模型应用落地方面,昇腾AI不光是算力提供者,还从效率出发,成为大模型开发流程的塑造者。

大模型的开发模式,最开始时是传统的API-based,昇腾AI通过提供一系列的大模型开发套件,走向了model-based,在这套开发模式下,只需要几十行代码就可以实现全流程的脚本开发,降低大模型开发门槛。

很显然,面对大模型开发训练的诸多难点和挑战,昇腾AI迎难而上,选择了正面硬钢,于昇腾AI自身而言,是大模型时代算力竞争的提前占位;于大模型行业整体而言,则是国产大模型架构在自主创新的软硬件基础之上,是国家科技实力的真实表现。

3.创新路上,中国AI需要更多同行者

大模型时代才刚刚开启,未来还有很多不确定性,唯一确定的是,对算力会有着持续的需求。

胡国平预测了大模型发展的三个趋势。

第一个是,未来会有更多新的大模型出现,现有的大模型在不断迭代之后,数据规模会有更大的增长,加之应用端的用户数量的增加,由此会带来更大的算力需求。

第二个是,随着大模型能力的提升,能够与更多的传感器、执行器产生数据和智慧的输入与输出,大模型的边界会进一步扩散,此时对算力会有更大的消耗。

第三个是,未来或将每个人都会拥有自己的专属大模型或者助理,围绕着个人的学习和生活,个人助理每时每刻都在进化和同步升级,这对极低功耗的芯片和系统解决方案提出了挑战。

不难看出,这三个趋势都与算力密切关联,在胡国平看来,大模型与大脑的原理层类似,都通过超千亿神经元组合在一起,接受输入的刺激,再产生智慧的输出,有着相似的智能激发和运行机制。

这也意味着,“大脑能做的事情,大模型也能实现”,大模型具有无限的潜力,算力底座的探索也就没有止境。

当然,要做好大模型,光有算力也不行。

中国科学院院士、清华大学计算机系教授、清华大学人工智能研究院名誉院长张钹院士认为,Chat GPT的成功并不是仅仅归功于数据、算力和算法三个要素,而是要强调四个要素,分别是知识、数据、算法和算力。

也就是说,我们要从文本中获取数据,然后从数据中获取到知识,出现这个转变才有了现在的ChatGPT,而这些都建立在“基于词嵌入的文本语意表示””基于注意机制的转换器”“基于预测下一个词的自监督学习”这三项技术的突破才得以实现的。

由此看来,数据、算法、算力这三个要素看似独立,但在大模型中又关联紧密,因而产业生态建设的重要性凸显出来。

昇腾AI产业生态发展迅速,截至目前为止,已经发展了30多家硬件伙伴、1200多家ISV,联合推出了2500多个行业AI解决方案,这套生态体系是可以直接搬运到大模型产业的。

人才培养方面,有超过300家高校院所与昇腾AI开展合作,每年培养了超过10万名专业的AI人才,昇腾AI开发者的数量也在高速增长,今年已经突破了180万人。

也正因为有如此根基,昇腾AI在此次大会论坛上宣布,联合科大讯飞、智谱AI、云从科技和面壁智能四家生态伙伴共同发布大模型训推一体化解决方案,加快大模型的落地速度,让大模型在智慧城市、智慧金融、智慧煤矿、智慧制造等更多细分行业中发挥出价值。

毫无疑问,大模型肯定会迎来属于自己的时代,假如时代已经来临,那么它的决胜期绝对不是刚刚起步的第一年,和其他颠覆性的新产业技术一样,大模型的发展注定会是一场时间与耐力的长跑。

当然,在子弹飞的这个过程中,在大模型时代的决胜时刻到来之前,我们需要更多的科大讯飞,也迫切需要能提供强大算力的昇腾AI。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/51892.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Keras编写神经网络预测大乐透彩票,并利用历史数据回测

写在最前面 首先郑重声明,这个赚不了钱!赚不了钱!赚不了钱!重要的话说三遍! 纯粹出于兴趣和技术做了个小实验,指望这个赚钱不太可能鸭!emmm,但可能会让你赔钱赔的少一点&#xff1…

使用 ChatGPT 生成完整的 Node.js API

借助由 OpenAI 训练的大型语言模型 ChatGPT,我们可以创建一个根据我们的特定需求量身定制的 Chrome 扩展程序,并且可以帮助简化我们的日常任务,而无需我们自己编写一行代码。让我们看看这是如何工作的…… 在此分步指南中,我们将向…

巴比特 | 元宇宙每日必读:证监会科技监管局局长姚前建议重点发展基于AIGC技术的合成数据产业,构建大模型训练数据的监管体系...

摘要:证监会科技监管局局长姚前撰文称,除算力瓶颈之外,训练数据将成为大模型产业化的最大掣肘之一。从更深层次考虑,大模型在训练数据方面还存在各种治理问题。为此,作者提出来三点建议,一是重点发展基于AI…

python写诗代码_我们分析了超过50万首诗歌,教你用代码写诗(附代码)

本文为 雷锋字幕组 编译的技术博客,原标题To a Poem is a Bott the Stranger,作者 Carly Stambaugh。 翻译 | 于泽平 马雪洁 整理 | 凡江 编辑 | 吴璇 代码即诗歌 。 这是WordPress软件的哲学。 作为一位程序员和诗人,我一直很喜欢这句话。…

ChatGPT:人工智能语言模型的革命性进步

🌷🍁 博主 libin9iOak带您 Go to New World.✨🍁 🦄 个人主页——libin9iOak的博客🎐 🐳 《面试题大全》 文章图文并茂🦕生动形象🦖简单易学!欢迎大家来踩踩~&#x1f33…

企业微信报错,提示无权限访问

注意打开应用的可见范围 ps.忘记错误码是多少了,上面只是其中一种可能性。

tp5Auth权限实现

下面本人为大家讲解一下如何实现auth权限&#xff0c; 第一步&#xff0c;新建Auth.php&#xff0c;复制下面的代码&#xff0c;把注释中的表都创建一下。把文件放到extend新建文件夹org放进去即可&#xff0c; <?php // ---------------------------------------------…

科技云报道:大模型的中场战事,深入垂直行业腹地

科技云报道原创。 自从OpenAI于2022年11月推出ChatGPT后&#xff0c;一场波及全球科技界的“AI海啸”就此爆发。 自今年以来&#xff0c;国内已有超过30家企业入局大模型赛道。从百度“文心一言”、阿里“通义千问”的发布&#xff0c;到网易“玉言”、科大讯飞“星火”、昆仑…

美国国会听证会探讨“深度伪造(deepfake)”风险及对策

大数据文摘授权转载自腾讯研究院 作者&#xff1a;曹建峰、方龄曼 近日&#xff0c;一段关于扎克伯格的恶搞视频在Instagram上流传。 该视频中&#xff0c;扎克伯格的面部表情极其僵硬&#xff0c;声音与本人的相比差距很大。 事实上&#xff0c;这是以色列一家科技公司利用人…

体验管理|如何快速低成本开始体验相关的数字化工作‼️

Guofu 第 95⭐️ 篇原创文章分享 &#xff08;点击&#x1f446;&#x1f3fb;上方卡片关注我&#xff0c;加⭐️星标⭐️~&#xff09; &#x1f68f; 写在前面 在体验经济时代&#xff0c;传统企业在应对新需求、新挑战的时候&#xff0c;也需要用新的方式进行企业升级和转型…

vant van-uploader组件实现点击图片进行编辑(更换图片)

示例图&#xff1a; 思路&#xff1a; 1.写两个uploader组件&#xff0c;确保他们样式一样&#xff0c;定位将他们重叠放在同一个位置。给其中一个uploader组件设置z-index&#xff0c;让她位于上方&#xff08;以下称为组件1&#xff09;&#xff0c;组件1用于触发选取图片的方…

怎么修改照片大小?一键快速修改图片宽高尺寸的方法

怎么修改照片大小&#xff1f;随着现在手机像素的提升&#xff0c;无论是用手机还是用相机拍摄出来的照片尺寸都越来越清楚&#xff0c;但是随之而来的问题就是图片也越来越大&#xff0c;因此导致大家在传输、使用的时候很不方便&#xff0c;那么有没有什么办法能解决这个问题…

如何编辑图片?图片如何编辑修改?

日常工作中很多情况是需要进行图片处理的&#xff0c;如果我们没合适图片编辑工具&#xff0c;处理图片可能就有些困难了&#xff0c;下载的处理图片软件操作难度过高&#xff0c;上手比较难。其实可以选择在线图片编辑&#xff08;https://www.yasuotu.com/tools&#xff09;网…

tui-image-editor编辑图片的使用

1.安装tui-image-editor 命令&#xff1a;npm i tui-image-editor 如果此步命令执行安装成功后启动还是报错找不到文件的话请检查以下文件 可手动添加到package.json后重新执行npm install 再次启动后便成功 或者单独安装此代码依赖块 npm install --save toast-ui/vue-ima…

数学好=编程能力强?答案或许跟你想的不一样

学好数理化&#xff0c;走遍全天下&#xff01;小时候&#xff0c;这句顺口溜时常在耳边响起&#xff0c;而迈入编程行业以后&#xff0c;又被不小人咨询&#xff0c;我数学不好&#xff0c;能写好代码吗&#xff1f; 不过最近的 MIT 神经科学家在 eLife 期刊发表了一项新研究…

为什么美国学生学的数学比我们简单,却能做出很牛逼的东西?

来源&#xff1a;IT有个 圈儿 &#xff02;美国给予不热爱数学的学生最基础的数学教育&#xff0c;而给予热爱数学的学生最高水平的数学教育。&#xff02; 长久以来&#xff0c;中国人的迷思就是&#xff0c;为何「美国人数学这么差&#xff0c;还能出这么多牛逼科学家&#x…

学计算机语言需要英语基础吗,数学和英语不好的人能学编程吗?

数学和英语不好的人能学编程吗&#xff1f; 有许多小伙伴问&#xff1a;学编程需要什么基础&#xff1f;很多人都会有一个下意识的想法就是英语数学不好就不能学编程&#xff0c;其实这是一个误区。从根本上来说学编程确实需要数学和英语。因为代码是用英文写的&#xff0c;数学…

“编程能力差,90%输在了数学上!”丨多数程序员都是瞎努力!

一流程序员学数学&#xff0c;二流程序员学算法&#xff0c;低端看高端就是黑魔法。 可能有人以为这就是个段子&#xff0c;但有过工作经验的都知道&#xff0c;这其实就是程序员的真实写照&#xff01; 想一想&#xff0c;我们学习、求职、工作的场景中&#xff0c;你一定因…

英语和数学不好是不是学不好编程?

做IT行业观察这个公众号已经三个多月~期间遇到很多想学编程&#xff0c;但又害怕学习编程的人&#xff0c;他们都有同样的问题&#xff1a; 学习编程&#xff0c;是否需要英语&#xff1f; 我数学不好&#xff0c;能学好编程吗&#xff1f; 学习编程&#xff0c;英文和数学肯定…

程序员不需要知道太多数学,你认同吗

之前在知乎看到一个问题&#xff1a; https://www.zhihu.com/question/48617074/answer/111889884 程序员不需要知道太多数学&#xff0c;你认同吗&#xff1f; 我听到的关于学习编程的最常见的顾虑&#xff0c;就是人们认为这需要很多数学知识。其实&#xff0c;大多数编程需…