王小川大模型首亮相!70亿参数霸榜,清北抢先用

8854b7902ac7a79750dcdabae6c2d230.jpeg


  新智元报道  

编辑:好困 桃子

【新智元导读】今天,百川智能正式发布70亿参数开源中英文大模型——baichuan-7B,一举拿下多个评测榜单最佳成绩。

时隔两个月,王小川组建的「百川智能」在6月15日正式推出首个70亿参数中英文预训练大模型——baichuan-7B。

baichuan-7B不仅在C-Eval、AGIEval和Gaokao中文权威评测榜单上,以显著优势全面超过了ChatGLM-6B等其他大模型,并且在MMLU英文权威评测榜单上,大幅领先LLaMA-7B。

目前baichuan-7B大模型已在Hugging Face、Github以及Model Scope平台发布。

f3a558bff8f20ff410317f88e1e9909d.png

Hugging Face:https://huggingface.co/baichuan-inc/baichuan-7B

Github:https://github.com/baichuan-inc/baichuan-7B

Model Scope:https://modelscope.cn/models/baichuan-inc/baichuan-7B/summary

多个中文评估基准拿下7B最佳

为了验证模型的各项能力,baichuan-7B在C-Eval、AGIEval和Gaokao三个最具影响力的中文评估基准进行了综合评估,并且均获得了优异成绩,它已经成为同等参数规模下中文表现最优秀的原生预训练模型。

0624b2c212faa5e4f89f7c7680e9205e.png

在AGIEval的评测里,baichuan-7B综合评分达到34.4分,远超LLaMA-7B、Falcon-7B、Bloom-7B以及ChatGLM-6B等其他开源模型。

在中文C-EVAL的评测中,baichuan-7B的综合评分达到了42.8分,超过了ChatGLM-6B的38.9分,甚至比某些参数规模更大的模型还要出色。

在Gaokao评测中,baichuan-7B的综合评分达到了36.2分,显著领先于同参数规模的各种其他预训练模型。

bcffcb7481c58114ed269c3298027052.png

https://cevalbenchmark.com/static/leaderboard_zh.html(2023-06-15)

AGIEval评测基准由微软研究院发起,旨在全面评估基础模型在人类认知和问题解决相关任务上的能力,包含了中国的高考、司法考试,以及美国的SAT、LSAT、GRE和GMAT等20个公开且严谨的官方入学和职业资格考试。

C-Eval评测基准由上海交通大学、清华大学以及爱丁堡大学联合创建,是面向中文语言模型的综合考试评测集,覆盖了52个来自不同行业领域的学科。

Gaokao评测基准是复旦大学研究团队创建的评测框架,以中国高考题目作为数据集,用于测试大模型在中文语言理解和逻辑推理能力方面的表现。

MMLU基准大幅领先LLaMA-7B

baichuan-7B不仅在中文方面表现优异,在英文上表现同样亮眼。

在MMLU的评测中baichuan-7B综合评分高达42.5分,大幅领先英文开源预训练模型LLaMA-7B的34.2分以及中文开源模型ChatGLM-6B的36.9分。

170a800e1cf0abe886abe16f52d8aa89.png

MMLU由加州大学伯克利分校等知名高校共同打造,集合了科学、工程、数学、人文、社会科学等领域的57个科目,主要目标是对模型的英文跨学科专业能力进行深入测试。其内容广泛,从初级水平一直涵盖到高级专业水平。

万亿数据、4K上下文、高效稳定训练

训练语料对大模型的训练结果至关重要。在构建预训练语料库方面,百川智能以高质量中文语料为基础,同时融合了优质的英文数据。

具体来说,原始数据包括自行抓取的海量中英文互联网数据和部分开源的中英文数据,以及大量高质量知识性数据。

3ce9e58f317bc815a8524c6d1b10f27d.png

在数据质量方面,通过质量模型对数据进行打分,对原始数据集进行篇章级和句子级的精确筛选。

在内容多样性方面,利用自研超大规模局部敏感哈希聚类系统和语义聚类系统,对数据进行了多层次多粒度的聚类,最终构建了包含1.2万亿token的兼顾质量和多样性的预训练数据。

相较于其他同参数规模的开源中文预训练模型,数据量提高了超过50%。

在万亿优质中英文数据的基础上,为了更好地提升训练效率,baichuan-7B深度整合了模型算子来加快计算流程,并针对任务负载和集群配置,自适应优化了模型并行策略以及重计算策略。

通过高效的训练过程调度通信,baichuan-7B成功地实现了计算与通信的高效重叠,进而达到了超线性的训练加速,在千卡集群上训练吞吐达到180+Tflops的业界领先水平。

同时,已有的开源模型窗口长度在2K以内,对于一些长文本建模任务,如需要引入外部知识做搜索增强的场景,更长的处理长度有助于模型在训练与推理阶段捕获越多的上下文信息,2K的处理长度存在比较大的制约。

109c4e755c35dedcfda2d6d14b8a954d.png

经过优化的分词算法

baichuan-7B基于高效的attention算子优化实现了万级别超长动态窗口的扩张能力,本次开源的预训练模型开放了4K上下文窗口,使模型应用场景更加广泛。

此外,baichuan-7B还对模型训练流程进行了深度优化,采用了更科学且稳定的训练流程和超参数选择,使得 baichuan-7B模型的收敛速度大大提升。

与同等参数规模的模型相比,baichuan-7B在困惑度(PPL)和训练损失(training loss)等关键性能指标上表现更加优秀。

c9e6cd50e12f377b63f29527fb94ac4b.png

开源免费可商用,清北已抢先体验

秉持开源精神,baichuan-7B代码采用Apache-2.0协议,模型权重采用了免费商用协议,只需进行简单登记即可免费商用。

baichuan-7B此次开源的内容十分丰富,包含了推理代码、INT4量化实现、微调代码,以及预训练模型的权重。

其中,微调代码方便用户对模型进行调整和优化;推理代码与INT4量化实现则有助于开发者低成本地进行模型的部署和应用;预训练模型权重开源后,用户则可以直接使用预训练模型进行各种实验研究。

据了解,北京大学和清华大学两所顶尖大学已率先使用baichuan-7B模型推进相关研究工作,并计划在未来与百川智能深入合作,共同推动baichuan-7B模型的应用和发展。

清华大学互联网司法研究院院长、计算机系教授刘奕群认为, baichuan-7B模型在中文上的效果表现十分出色,它免费商用的开源方式展现出开放的态度,不仅贡献社区,也推动技术发展。团队计划基于baichuan-7B模型开展司法人工智能领域的相关研究。

北京大学人工智能研究院助理教授杨耀东认为,baichuan-7B模型的开源将对于中文基础语言模型的生态建设及学术研究产生重要推动作用,同时他也表示将持续关注相关领域探索,并且在中文大语言模型的安全和对齐上进行进一步深入研究。

百川智能CEO王小川表示:「本次开源模型的发布是百川智能成立2个月后的第一个里程碑,对百川智能而言是一个良好的开局。baichuan-7B模型,不仅能为中国的AGI事业添砖加瓦,也为世界大模型开源社区贡献了新的力量。」

技术团队专访

Q:baichuan-7B如何处理幻觉问题,未来该如何提高结果正确性?

A:大模型在可见的未来还不能彻底解决幻觉问题,一方面通过强化学习来让模型知道自己不知道,有效缓解幻觉,更重要的是需要靠「搜索增强」引入外部知识来逐步解决幻觉问题。

Q:baichuan-7B能带来哪些商用价值?

A:baichuan-7B作为在多个榜单评测效果成绩最佳的7B开源可商用大模型,填补了市场上缺乏优质的针对中文优化的7B大模型的空白,是开发者理想的7B大模型底座。同时在商用价值方面,能够在例如文本生成,自动化写作,数据分析,知识问答,中英翻译,个性化交互和专业领域个人小助手,比如医疗领域,给用户带来巨大的价值。

Q:baichuan-7B在评测榜的成绩达到最初的训练模型预期了吗?

A:打榜并不是我们的目的,我们相信好的数据和算法能力,评测自然会有好的结果,这次baichuan-7B在多个最具影响力的评测中的优异表现也验证了百川的这个理念。

参考资料:

https://github.com/baichuan-inc/baichuan-7B

这两天我搭建了一个自动发账号密码的商品,想买ChatGPT成品号的可以了解一下。数量不多,预购从速,不用注册可以直接购买,支付页面需要保存下支付二维码,然后去支付宝或者微信扫一扫后。购买后,不会发邮件,需要你再回到商城点击最上面的【查看订单】,可以根据浏览器缓存或你输入的邮箱及密码,看到订单详情,点开就是账号和密码,过程是全自动的。扫码或者直接访问ChatGPT账号商店:http://www.itsmartfish.com

4dd0b6b3d473e3ced1d7e2d14b28c508.jpeg

08479993cb3fc66d59dcf6ae2c5da495.png

adfee128257c9693a1148dfc5f226bdd.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/54942.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信小助手 for mac(WeChatPlugin)使用攻略

Mac Os微信多开助手软件特征 消息自动回复消息防撤回远程控制(已支持语音)微信多开第二次登录免认证聊天置底功能(类似置顶)微信窗口置顶会话多选删除自动登录开关通知中心快捷回复聊天窗口表情包复制 & 存储小助手检测更新提醒alfred 快捷发送消息 打开窗口 (需安装&…

WeChatTweak-微信小助手安装教程

github下载:https://github.com/Sunnyyoung/WeChatTweak-macOS CSDN下载:https://download.csdn.net/download/weixin_45477086/83895866 双击解压下载的WeChatTweak-macOS-***.zip在终端输入cd ,并敲一个空格,然后把解压的文件夹拖到终端 …

关于自己对像Chat-GPT的反应速度感悟

这几个月相信大家应该对ChatGPT都不陌生了吧,因为这个东西已经在各大社交媒体可以说是无限次曝光了,就连一些其他行业的(完全跟科技行业沾不上边的朋友们)都知道了。可想而知,这个是有多火了。 而我之所以发表这个感悟,其实也是自…

Swift 周报 第十九期 |技术汇总

前言 本期是 Swift 编辑组自主整理周报的第十期,每个模块已初步成型。各位读者如果有好的提议,欢迎在文末留言。 欢迎投稿或推荐内容。目前计划每两周周一发布,欢迎志同道合的朋友一起加入周报整理。 十期磨一剑,废铁亦有形&am…

Java 调用OpenAI完成聊天

这段时间比较火的chatGPT,准确来说应该只是openAI的一个小部分,这里对openAI的功能接口进行一个java实现,以文本补全、聊天(也就是chatGPT)和图像生成作为演示,体会一下AI的强大力量。 一、openAI账号创建…

chat-gpt私服,无障碍使用高端AI工具,欢迎免费试用~

要说最近最火的技术,那就是chat-gpt了,我个人在平时工作中,也用了很多次,确实能提高不少工作效率,比如: 让它写写常用的示例代码: -让它进行角色扮演 也能为繁杂的工作带来不少乐趣&#xff0c…

Worldcoin完成1.15亿美元融资,它会成为下一个史诗级加密项目吗?

ChatGPT 创始人 Sam Altman 联合创办的加密项目 Worldcoin 刚刚宣布完成了 1.15 亿美元 C 轮融资,这位 AI 领域最炙手可热的人物为何会创办这个加密项目,这是他 AI 愿景的一部分吗? Blockchain Capital 领投了 Worldcoin 的这轮最新的融资&am…

ChatGPT如何帮助学生学习

​ 一些教育工作者担心学生可能使用ChatGPT作弊。因为这个AI工具能写报告和计算机代码,画出复杂图表……甚至已经有许多学校把ChatGPT屏蔽。 研究发现,学生作弊的主要原因是想考得好。是否作弊与作业和考试的打分方式有关,所以这与技术的便…

Python盯盘机器人,实时监控股票价格,还能邮件通知你

前言 Python凭借其开发效率高和功能强大的特性,在众多编程语言中脱颖而出,成为大数据时代的分析利器。 据我多年的领悟,编程语言只是一种按照人的意图去实现特定功能的高效工具而已,程序化所实现的核心决策功能依然需要人工智慧…

NLP实战:Pytorch实现6大经典深度学习中文短文本分类-bert+ERNIE+bert_CNN+bert_RNN+bert_RCNN+bert_DPCNN

目录 Introduction 导言数据集Python环境及安装相应依赖包Anaconda环境配置 源代码地址预训练语言模型下载新建saved_dict文件夹 Bert模型说明 ERNIEERNIE 1.0ERNIE2.0ERNIE 3.0 bert_CNN、bert_RNN、bert_RCNN、bert_DPCNN模型说明 各模型效果对比参考资料其它资料下载 Introd…

程序员诗2首:悲催诗(史)与爱情诗

这几周《非诚勿扰》来了不少IT男,而且来自硅谷,这触发了大家对程序员的好奇心,其中主持人孟非读的一首诗堪称经典,我载下来,大家来吐吐槽! 举头望明月,低头写程序。 但愿人长久&#xff0…

程序员可以有多浪漫,盘点那些像诗一样美的代码(C语言版)

文章目录 「没有你,我无法向世界问好」「让你的每个程序都可以留下笑脸」「UNHANDLED LOVE」「IMPORT SOUL」「很久很久以前,...」「都听你的」「Hello World」「最萌宏定义」「假作真时真亦假」「嘤语言 & e语言」「面向StackOverflow编程」「Don’…

JAVA 仿QQ聊天程序(附源码)

个人推荐: 📢📢📢 前些天发现了一个蛮有意思的人工智能学习网站,8个字形容一下 "通俗易懂,风趣幽默",感觉非常有意思,忍不住分享一下给大家。点击跳转到教程。 前言: 第一次通过java编写完了一个模拟QQ的C/S…

2022年营销传播研究报告

第一章 行业概况 营销传播是公司试图向消费者直接或间接地告知、劝说和提醒其销售的产品和品牌信息的活动。在某种意义上,营销传播代表着公司及其品牌的声音,它们是公司与消费者进行对话和建立关系的桥梁。营销传播能够通过强化顾客忠诚度,提…

【RPA之家转载】捷报频传,影刀RPA荣获“时尚行业数字化卓越产品大奖”

RPA之家(RPA之家|RPA|RPA新闻|RPA案例|RPA应用|RPA咨询|RPA培训|RPA认证|RPA教程)是中国具有影响力的RPA垂直交流社区,社区汇聚了RPA领域的各类从业人员。其中包括RPA开发工程师、售前工程师、业务分析师、架构师、运维工程师、项目管理、项目…

哪家代运营公司比较好?天猫代运营公司十大排名任你挑选。

如今的疫情反反复复,在这种情形下,电商行业呈现了更大的发展空间。而随着互联网的发展,也让传统的实体店铺陷入了困境,于是大家纷纷进行了新的尝试,向线上电商平台进军,但是由于电商的技术壁垒比较高&#…

《python爬爬乐》入门篇:结构类型详解

python爬虫 字典 python中的字典(dict),来源于生活中的目录。它的主要特征,不是根据位置来访问数据,而是根据一个预先约定好的关键字(key)来访问指定数据(value),键和值使用“key : value”的方式来保存,可以称之为键…

不知道说些什么

周一入职新公司到今天连续干了三天,去公司基本从早干到晚,事很满,没时间看新闻看书思考。所以吧 起了这么一个标题。 最近有个瓜是绿地京津冀事业部营销部负责人陈军被实名举报,举报人举报绿地员工睡自己老婆,还怀了孩…

透过宝尊电商Q1财报,看品牌电商全渠道发展的想象力

北京时间5月18日晚间,宝尊电商公布其Q1财报,从基本面来看,宝尊电商行业龙头地位稳固。 财报显示,宝尊2021年Q1 总净营收达20.2亿元人民币,同比增33%。其中,非美国会计准则下运营利润达7,575万元人民币&…

互联网日报 | 瑞幸咖啡内部调查基本完成;12306官方支付宝小程序上线;华为openGauss正式开源...

今日看点 ✦ 瑞幸咖啡宣布内部调查基本完成,2019年净收入被夸大约21.2亿元 ✦ 华为正式宣布开源数据库能力,并成立openGauss开源社区 ✦ 紫光国微旗下紫光安全芯获得全球最高等级认证,实现中国零突破 ✦ 海航将推"嗨购自贸港"产品&…