百度文心大模型3.5杀疯了!拿下7个第一!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

今年国产大模型大爆发!截止目前,国内已经有相当多的大模型,网友调侃称百“模”大战!其中最具代表性的产品有:百度的文心一言、阿里的通义千问、科大讯飞的星火等,最具代表性的开源工作有:ChatGLM、MOSS、BaiChuan等。

目前大模型面向用户的主要交互方式集中在对话(Chat)上,输入内容以自然语言文本为主,有的还支持图片、文档等输入。大模型支持的功能更是丰富至极,比如知识问答、外语翻译、论文润色、编程、数据分析、智能机器人等,有的甚至已经引入多模态技术,支持图像生成、视频生成等功能。

那么现在有这么多大模型,有同学肯定会疑问:究竟哪家的大模型实力最强?!如果要选择一个作为日常科研和工作的工具,哪个更顺手?!

a1a96d8c910c0528b7305488e20fffc6.png

文心大模型3.5拿下三个绝对第一

全球领先的国际数据公司IDC最新发布的《AI大模型技术能力评估报告,2023》给出了答案。这也是IDC首次提出AI大模型技术能力评估框架,而且参加这次大模型评估的都是国内最具代表性的AI大模型厂商,有百度(文心)、阿里巴巴(通义千问)、科大讯飞(星火)、腾讯、智谱 AI、澜舟科技、360、商汤等14家。 

61000e8627a163e391c67c7d552f4ba4.png

其中,最吸睛就是百度的文心大模型3.5,强势拿下三个绝对第一: 

  • 整体上总分绝对第一

  • 算法模型绝对第一

  • 行业覆盖绝对第一

报告显示,在涉及的12项指标中(包括产品、服务和行业三大维度),百度文心大模型3.5拿下7个满分,综合评分排名第一!       

cae12626d247c570f2b49107f11227cf.png

IDC《AI大模型技术能力评估报告,2023》:百度7项满分、综合评分第一

其中在算法模型指标上,百度文心大模型3.5拿到了唯一的满分五分,这代表了大模型的基础能力,也直接体现了百度在大模型核心技术上的突出优势;而且在行业覆盖指标上,百度文心大模型3.5也拿到了唯一的满分五分,这意味着百度拥有中国最大产业应用规模;同时在通用能力、创新能力、平台能力、能源和生态合作指标上也都拿到了满分五分。

前段时间,百度正式发布了文心大模型3.5版本,与3.0版本相比,训练速度提升2倍,推理速度提升30倍,模型效果累计提升超过 50%,这些提升会实实在在的优化用户体验!而这些成果是离不开百度精心打造的“芯片-框架-模型-应用”四层技术栈的优势,尤其是框架层的飞桨深度学习平台和模型层的文心大模型的联合优化。

这里值得提一下,文心大模型3.5版本支持下的文心一言中文能力相当突出,在多个公开权威测评上,综合能力评测得分超过ChatGPT,部分中文能力甚至有超越 GPT-4 的性能表现。

另外在功能方面,百度文心大模型3.5版本特别新增了插件机制(很多同学眼馋很久了),插件机制会大大拓展大模型的能力边界,比如加入百度搜索和ChatFile(支持pdf/doc文档上传)插件,扩展了获取实时准确信息的能力和超长文本输入及生成文本摘要的能力。

4fd9357b6c785ae02ce8359c33db99b2.png

百度文心大模型全景图

文心大模型3.5版本背后的技术

文心大模型3.5版本究竟在哪方面技术得到了提升?这其实是我们行业从业人员非常关心的,也是参考学习的重点。

于是我调研了一波,发现文心大模型3.5版本在技术层面,主要实现了基础模型升级、精调技术创新、知识点增强、逻辑推理增强等改进。

  • 基础模型升级

基础模型(Foundation Model)的升级,依托百度飞桨(PaddlePaddle)的自适应混合并行训练技术和混合精度计算,并采样多种策略优化数据源和数据分布,使得预训练大模型的训练效率和性能都得到了显著提升。

自适应混合并行训练技术包含不同角度的并行,可能有参数的并行,有数据的并行,有流程调度的并行,还有模型自身结构上的考虑等等,以及需要结合模型在训练整个过程的不同阶段,以及训练集群的状态去进行适应的调配,最终让大规模参数的超大型模型非常有效率的运行起来。

混合精度计算是指在不同阶段,以及面对训练当中不同训练要求的时候,采用不同精度计算,比如BF16、FP32和TF32的混合,可以在减少占用内存的同时实现加速训练的效果。

多种策略优化数据源和数据分布是来保证模型效果和安全性。其中安全性是当前AIGC中重要一环,因为大模型输出结果可能会受到多种因素的影响,就可能导致大模型产生误导性的结果,所以如何让模型能够稳定、正向的生成结果,是非常重要的。

  • 精调技术创新

精调(Fine-tuning)技术是引入多类型多阶段有监督精调。在强化学习方面,使用多层次多粒度奖励模型,奖励模型非常重要,其可以指导模型,训练出更可靠的模型(奖励模型是RLHF的关键,也是模型的关键)。

另外训练中有对于多损失函数混合优化,以及双飞轮结合的模型优化,这些技术创新大大提升了模型的效果。

  • 知识点增强

百度在已有的知识增强和检索增强基础上,进一步创新了知识点增强技术。通过用户的提示和需求输入之后,对此做理解,从中去抽取和扩展知识点,通过搜索引擎和知识图谱的帮助,把知识点变成指导大模型生成工作之后的指引,最后使得模型能够更好地利用精细的知识点来提升大模型对世界知识的掌握和运用能力。

  • 逻辑推理增强

在推理方面,创新了大规模逻辑数据构建技术、逻辑知识建模技术、粗粒度与细粒度语义知识组合技术以及符号神经网络技术,使得逻辑推理、数学计算和代码生成等能力都得到了很大的提升。

文心一言实测

上面介绍了文心大模型3.5版本的一些数据和技术,但对我们使用者而言,最新版本究竟有多强,还是要看具体使用体验如何,这个才是最实际的。

于是我实测了文心大模型3.5版本支持的文心一言。特别提一下,如果你之前有拿到文心一言测试资格的话,应该会明显发现,从3月份到现在,文心一言能力有非常大的提升,可以感觉到体验有非常大的变化。

这里我作为一名人工智能、计算机视觉方向的从业者,提问了一些日常会遇到的问题,来看看文心一言是否可以轻松应对。

  • 编程能力

测试一下文心一言的编程能力如何,能否减轻我们的coding工作量。

问题:用OpenCV写图像灰度化的代码

这段示例代码对小白极其友好,不仅有代码的中文注释,还有代码的整个处理流程,简直是手把手教学。

e3cc461297303d16fa38cb14907ea8c8.png

  • 翻译能力

这里测试了文心一言的翻译能力。因为每天会有海量论文上新,想要一一看遍,那工作量可太大了,所以快速看遍论文摘要,尽快了解论文的创新点和性能是很多同学日常在做的事情。

以论文摘要为例,从下面的两个图可以看出文心一言轻松准确的完成了英文的翻译。  

285dbc83dac102d1632efacb960abe84.png

ed0dfd0fff20f6f6ae0fa4bc7611accd.png

  • 面试辅助

最近正值求职季,我发现可以让文心一言出一些算法面试题。这样既可以给面试官提供灵感,甚至直接拿原题来用,以减轻工作量;还可以给正在求职的同学提供大量面试模拟题,以对相关知识点查漏补缺。

问题:你是一名拥有10年经验的计算机视觉算法研究员,请给面试者提出10道计算机视觉算法面试题

440ed80fa1cc57039787d2d38a001583.png

不仅可以生成算法面试题,还能生成相应的答案:

998119ba2576db8f50c1b264310b8fc5.png

  • 文字到图像生成

文字到图像生成这个方向目前相当火爆!不管是在学术界,还是在工业界都是研究的重点。这里测试了文心一言的文字到图像生成多模态能力。

问题:画一张正在融化的雪人

这张生成的雪人图片不仅有“正在融化”的感觉,而且融化后的水中还有雪人的倒影,这是相当具有真实感了!

7109cf2de90c9f589742b5f3a77e41cf.png

问题:画一张黑白风格的剑客照片,帅气的剑客站在沙漠之上,手中拿了两把剑

这张生成的剑客图片十分具有视觉冲击感,可能美中不足的是生成的两把剑是稍微有一点长了(手动狗头)。

d91c21c4ca315472e904be7ab06e6fa3.png

  • 内置插件

百度搜索插件——让文心一言具有生成实时准确信息的能力

本周三凌晨,Meta重磅发布了可免费商用的大模型Llama 2,让我们来看看文心一言是否知道这个消息。

可见具有百度搜索插件的文心一言,已经“知晓”了Llama 2的存在,并对其进行了介绍和分析。

a39c4c7d3b53d081e169d63a42117977.png

再问问今天上海的天气如何?

文心一言不仅告诉你了今天的上海天气,还把未来一周的上海天气都列出来了(相当贴心)。

60004ba23e6b003478ad616c1a2ed264.png

ChatFile 文档插件(支持pdf/doc格式)

用户在上传(pdf/doc格式)文档之后,可以通过自然语言文本跟文心一言进行对话,这样就可以对文档的内容进行解析,比如检索和总结等。

我上传了ICCV 2023顶会上的一篇最新论文《End-to-End Diffusion Latent Optimization Improves Classifier Guidance》的pdf,让文心一言总结了该论文的创新点。从下图可知,文心一言检索到了该论文所提出的框架(所写)叫做DOODL,目的是优化文本到图像扩散模型,并对更多信息进行了总结。

731925c1fe386d1d4aaa040304fed728.png

  • 日常类问题

现如今生活中充斥着非常多的网络梗,听到第一遍时很难理解具体意思,这时候可以问问文心一言,它会给详细的解释。

问题:你知道疯狂星期四,v我50是什么吗?

1d322787ef37b7f3611579c1aa32cbe6.png

问题:你知道"citywalk"是什么吗?

75f7c57b15ceea9a73eafad4081b9233.png

期待

当前文心大模型3.5版本支持下的文心一言已经具备相当优秀的性能和用户体验,达到了真正的“上手即用”,可以帮助我们提高科研和工作的生产力。

非常期待文心一言支持更多的功能、交互方式和插件,比如文本生成视频的多模态功能(听说该功能已经在百度内部进行内测了)。

另外文心一言还在内测阶段中,希望百度尽快放开公测!这么优质的工具,应该被大家看到和用到!

最后希望国产大模型发展越来越好!给每个人带来便利!

 

 
 
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32126.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成式AI掀起产业智能化新浪潮|爱分析报告

报告摘要 大模型支撑的生成式AI,让人类社会有望步入通用人工智能时代,拥有广阔的应用前景,有望赋能千行百业。当前生成式AI的落地整体处于初级阶段,不同模态的落地时间表差异明显,企业需求主要集中在数字化程度高、容…

DevOps CI/CD、ceph、K8S/istio流量治理

目录 一、前述1.1 基本架构1.2 本文测试环境1.3 部署次序 二、基础支撑层2.1 os-w服务2.2 管理节点2.3 DNS服务配置2.4 CA证书配置2.4.1 cfssl工具安装2.4.2 证书产生过程 2.5 DHCP服务2.6 web下载服务 三、CI/CD层3.1 镜像仓库harbor3.1.1 安装前准备3.1.2 安装harbor3.1.3 访…

WAIC2023| AIGC究竟在向善还是向恶而行?

目录 一、常见图像篡改技术二、传统篡改图像检测方法2.1、基于光源和噪声的拼接图像篡改检测方法2.2、基于马尔科夫特征的检测方法 三、基于深度学习的图像篡改检测方法3.1、基于Fisher编码和SVM模型的方法3.2、 基于局部异常特征检测的Mantra-Net方法3.2、基于HRNet的编码器—…

软件工程实践——软件测评作业

这个作业属于哪个课程2023年福大-软件工程实践W班这个作业要求在哪里作业要求这个作业的目标分析比较网络上的几个编程网站并给出评测提升自己对软件工程的理解其他参考文献《构建之法》邹欣老师的案例分析软件评分参考Bug定性的标准 文章目录 Bug定性标准第一部分 调研、评测1…

[深度学习入门案例1]基于Keras的手写数字图像识别

文章目录 一、工具与环境 二、深度学习环境的搭建 1.安装Anaconda 2.创建虚拟环境 第1步:打开Anaconda的命令窗口,即Anaconda Prompt 第2步:使用命令创建指定版本的python环境(这里以py36命令环境名称举例) 3.切换…

发布变更又快又稳?腾讯运维工程师经验首发

导读| 如何让功能缺陷修复快速上线?版本发出问题时怎样快速回退?效率提升后质量掉队?为解决这些常让运维工程师头疼的事情,本栏目特邀腾讯知名运维工程师袁旭东,讲述对象存储COS的发布演进过程,为各位开发者…

国内外人工智能AI工具网站大全(非常详细)从零基础入门到精通,看完这一篇就够了

国内外人工智能AI工具网站大全(一键收藏,应有尽有) 摘要一、AI写作工具二、AI图像工具 2.1、常用AI图像工具2.2、AI图片插画生成2.3、AI图片背景移除2.4、AI图片无损调整2.5、AI图片优化修复2.6、AI图片物体抹除 三、AI音频工具四、AI视频工…

解析软件测试未来的发展潜力

大家都知道最近 ChatGPT 爆火,国外巨头争相宣布自己的相关计划,国内有点实力的企业也在亦步亦趋地跟进。不出意料的是,关于测试职业要被淘汰的话题又(为什么要说又?)在扎堆出现,内容跟之前还是大…

软件测试现状以及行业分析

大家都知道最近 ChatGPT 爆火,国外巨头争相宣布自己的相关计划,国内有点实力的企业也在亦步亦趋地跟进。不出意料的是,关于测试职业要被淘汰的话题又(为什么要说又?)在扎堆出现,内容跟之前还是大…

基于OpenGL的地形建模技术的研究与实现

毕业论文 基于OpenGL的地形建模技术的研究与实现 诚信声明 本人郑重声明:本设计(论文)及其研究工作是本人在指导教师的指导下独立完成的,在完成设计(论文)时所利用的一切资料均已在参考文献中列出。 本人签…

国际web短信软件平台开发定制接口通道分类|移讯云短信系统

国际web短信软件平台开发定制接口通道分类|移讯云短信系统 平台外放接口介绍 支持接入CMPP接口,支持SMPP通道接入,支持外放CMPP接口(其他平台可以通过CMPP接入我平台),支持HTTP API JSON 接口,支持HTTP A…

短信API接口

一、关于短信API接口 第三方短信服务商提供短信API接口,短信一般是编辑好内容,调用接口发送即可。我们这里提供一个注册好的账号,其中短信API服务器地址为: https://itdage.com/kkb/kkbsms 参数列表为: key&#xff1a…

国际短信系统平台发送接口说明方法|网页短信平台开发搭建-移讯云短信系统

国际短信系统平台发送接口说明方法|网页短信平台开发搭建-移讯云短信系统 此接口为发送接口可直接通过pos直接调用 直接发送,源码短信平台搭建平台时 包含此功能,在客户端中可查看API接口文档 接口名称:自定义短信发送接口 接口方式&#x…

短信平台哪个好用?记录短信接口使用感受

目前市场上的企业短信平台众多,主要分为三大类,即国内三大运营商、云短信平台和专一短信平台服务商。那么哪些短信平台更好用呢? 其实没有最好的短信群发平台,只有最适合的短信群发平台,不同类型的短信平台都有自己的…

各大短信平台接入方法

短信平台有哪些 最为著名的三大平台:华为短信、阿里短信、腾讯短信;根据各家官网的接入文档进行使用 短信平台接入流程 需要具备哪些信息 各家所需信息不太相同,大致如下: 1.app key 2.app 秘钥 3.app 签名 3.发送者id 4.模版&…

发送短信工具类(亿美短信平台接口)

 一般我们都是需要接入第三方短信平台,我这边是接入亿美的短信平台sdk,在我们的项目中只需要导入emayclient.jar就可以使用发送接口,当然前提是你有账户和密码,就涉及到购买了。不过其他不多讲&#xff0…

国际web短信软件平台开发搭建后台功能|移讯云短信系统

国际web短信软件平台开发搭建后台功能|移讯云短信系统 特色功能模块功能列表 1:通道路由模块 1.1:通道地区设置 1.2:通道关键词分流 1.3:白名单独立通道设置 1.4:通道分组设置 1.5:通道分组分配 1.6…

调用Android短信软件进行短信群发

最近想做一个可以群发短信的功能,但又不想自己做一个发短信的界面,之前也做过利用Intent调用系统发短信功能,这个网上也有大把人发过。 String mobile "18900000000" Intent intent new Intent(Intent.ACTION_VIE…

短信接口平台

最近忙着弄短信接口的平台程序,现在已经基本做完,跑起来看着还挺顺的。我简单介绍一下。 详细说明 中国电信和中国移动的短信协议要求客户端主动连接到网关收取信息,并且接受的连接只能有一个。因此客户端的接收程序必须尽快处理收到的信息…

什么是短信平台api接口?

自从人类诞生了手机,短信便随之而来,虽然后来有了更多的即时通信工具,如QQ和微信,个人用短信的机会已经很少了,但是对于企业公司来说,短信一直是非常方便的信息传递工具。 那些带有营销性质的企业和商家会通…