王小川大模型25天再升级!13B版本开源免费可商用,3090即可部署

衡宇 金磊 发自 凹非寺
量子位 | 公众号 QbitAI

就在刚刚,王小川的开源大模型又有了新动作——

百川智能,正式发布130亿参数通用大语言模型(Baichuan-13B-Base)。

并且官方对此的评价是:

性能最强的中英文百亿参数量开源模型。

与此一同出道的,还有一个对话模型Baichuan-13B-Chat,以及它的INT4/INT8两个量化版本。

487d71560d10caaa0013525a7d04254d.png

但更重要的一点是(划重点),完全开源!免费可商用!

9980dcb9e0a984a75a8cbda70bf159a5.gif

就在不久前的6月15日,百川智能才刚刚发布其第一款70亿参数量的中英文语言模型Baichuan-7B。

当时的版本便已经拿下多个世界权威Benchmark榜单同量级测试榜首;同样作为开源大模型,据说清华北大都已经用上了。

仅仅时隔25天,更大、更强的版本再次袭来,不得不说,王小川在技术上的动作是有够紧锣密鼓的了。

那么这次号称的“最强开源大模型”,具体表现又是怎样呢?

多领域超越ChatGPT

老规矩,先提纲挈领地说一下Baichuan-13B的基本个“模”资料:

中英双语大模型,130亿参数,在1.4万亿token数据集上训练,完全开源、免费可商用。

1.4万亿ztoken这个训练数据量,超过LLaMA-13B训练数据量的40%,是当前开源的13B尺寸模型世界里,训练数据量最大的模型。

此外,Baichuan-13B上下文窗口长度为4096——这就不得不提到其与7B版本完全不同的编码方式。

7B版本采用RoPE编码方式,而13B使用了ALiBi位置编码技术,后者能够处理长上下文窗口,甚至可以推断超出训练期间读取数据的上下文长度,从而更好地捕捉文本中上下文的相关性,让预测或生成更准确。

24b81718a86febc9bd4824756e2e261b.png

作为一款中英文双语大模型,Baichuan-13B采用了相对平衡的中英文语料配比和多语言对齐语料,从而在中英两种语言上都有不俗表现。

386bec3a20719c10a93fb5784694aa1c.jpeg主流百亿参数13B开源模型benchmark成绩

来看看Baichuan-13B在中文领域的测评成绩

在评测集C-EVAl上,Baichuan-13B在自然科学、医学、艺术、数学等领域领先LLaMA-13B、Vicuna-13B等同尺寸的大语言模型。

社会科学和人文科学领域,水平比ChatGPT还要好上一点。

8abf347b1f8b41feedc46dd6dd743577.png

英文领域的表现也算不错,能比同尺寸的其他开源模型,如LLaMA-13B、Vicuna-13B都有更好的表现。

39e03c0641e5d9725a03e8d6c102c1cb.png

通常而言,非专业用户和有具体需求的企业,对有对话功能的对齐模型有更重的好奇心。

鉴于这个情况,百川智能此次在发布与训练模型底座Baichuan-13B-Base的同时,还发布了其对话模型Baichuan-13B-Chat及其INT4/INT8两个量化版本。

来看看对话模型的实际表现效果——

让它写个商品介绍邮件,它能写出酱婶儿的:

ecacf28863ede1da00852f777b461f21.gif3fade61c961acbfed49326d83e1b847c.gif10fba06bc7ec018359d71b24cac8872d.gif

数据推理能力如何?

也浅测了一番:

d6ab9a455125fa4e45b4cb0b75054027.gif

至于互联网上远古或新近流行的各种梗,Baichuan-13B-Chat好像也没在怕的:

53f5b10dc55973392edf493e77673559.gif

官方介绍,为了保证模型的纯净度,Baichuan-13B-Base和Baichuan-13B-Chat没有针对任何benchmark测试进行专项优化,具有更高的效能和可定制性。

为什么要完全开源、可商用?

正如我们刚才提到的,这次百川智能推出的Baichuan-13B-Base是对学术研究完全开放

不仅如此,所有开发者均可通过邮件向百川智能申请授权,在获得官方商用许可后即可免费商用。

而且据官方的说法,百川智能是为了降低使用的门槛,才同时开源了Baichuan-13B-Chat的INT8和INT4两个量化版本。

这样一来,在近乎无损的情况下,便可以将模型部署在如3090等消费级显卡上

9ecd49e7462e68337f77209949217154.jpeg

想必很多小伙伴就要问了,百川智能为什么要走这么一条路?

其实如果看下Meta在大模型上的开源之路,便可窥知一二。

我们都知道大模型在训练的成本极高,因此像OpenAI和谷歌两大科技巨头最初选择的是闭源的“路数”,它们为的就是以此保证自己的优势。

而Meta后来所推出的LLaMa则与之“背道而驰”,但所迸发出来的潜力却是有目共睹——

迅速吸引大批开发者,在LLaMa基础上迭代出了各种ChatGPT的替代品,甚至在性能的表现上是可以匹敌GPT-3.5的那种。

加之业界对大模型未来发展态势已经达成了一个共识:

类似安卓和iOS,将会是开源和闭源共存的状态。

因此,开源在大模型的发展中已然成为一股不可或缺的中坚力量。

……

那么你对于王小川的新大模型,有何看法呢?

【HuggingFace】

预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat

【GitHub】

https://githuB.com/Baichuan-inc/Baichuan-13B

【Model Scope】

预训练模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/

— 联系作者 —

24954f74131aca440c89c6b1e5952c49.png

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

95b73cc8c6bb8c603bf6d9021cb62e68.png

点这里👇关注我,记得标星哦~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/62048.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苹果手机免越狱群控电脑端控制手机

据小编了解 ,手机群控这个词一直受网上争议,那么今天小编也在这讨论一下,其实群控系统分很多,市面上有主板机群控,所谓的主板机群控系统是指把手机的主板全部集中到一个机箱控制,但这个就会留下很多弊端&am…

人工智能是否会取代人类的工作岗位?

跨国投资银行高盛预测,人工智能将取代3亿个全职工作岗位。依据是人工智能可以创造出与人类创建的内容无法区分的高水准内容。同一时期,IBM首席执行官阿文德克里希纳以人工智能聊天机器人可以取代7,800名员工为由停止了招聘。IBM并不是唯一一家“毫不犹豫…

第一位计算机科学博士诞生 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 2 月 9 日,在中国,今天是道家学派创始人老子的诞辰和清代著名女词人顾太清的生日;在日本,写出《我是猫》的知名作…

用 100 行代码揭开 LLM 集成工具 LangChain 的神秘之处!

整理 | 王子彧 责编 | 梦依丹 出品 | CSDN(ID:CSDNnews) LangChain 是一个强大的程序框架,它允许用户围绕大型语言模型快速构建应用程序和管道。它直接与 OpenAI 的 GPT-3 和 GPT-3.5 模型以及 Hugging Face 的开源替代品&…

The missing quarter of a million 消失的25万 | 经济学人20230311版社论高质量双语精翻

文 / 柳下婴(微信公众号:王不留) 本期我们选择的是3月11日《经济学人》周报封面文章,即社论区(Leaders)的首篇文章:《25万英国人消失之谜》(“The missing quarter of a million”&a…

哈佛计算机系王牌项目,要请AI来当导师了

克雷西 发自 凹非寺量子位 | 公众号 QbitAI 近日,哈佛宣布了一个重磅决定:AI导师将进入课程。 负责的还是计算机系的旗舰项目——计算机科学导论,也就是著名的CS50。 借助机器人导师,哈佛的CS50项目将拥有1:1的师生比。 这一消息是…

哈佛计算机系王牌项目,要请AI来当导师了!

来源 | 量子位 作者 | 克雷西 近日,哈佛宣布了一个重磅决定:AI导师将进入课程。负责的还是计算机系的旗舰项目——计算机科学导论,也就是著名的CS50。借助机器人导师,哈佛的CS50项目将拥有1:1的师生比。 这一消息是CS50项目导师Da…

机器学习吴恩达课程总结(一)

文章目录 1. 第一章 简介1.1 机器学习(Machine Learning)1.2 有监督学习(Supervised Learning)1.3 无监督学习(Unsupervised Learning) 2. 第二章 线性回归(Linear Regression)2.1 假…

吴恩达NLP课程资料

NLP_wuenda 1.简介 吴恩达老师在2020年6月份推出了NLP课程,Natural Language Processing Specialization  本人忙里偷闲将老师的视频和作业都完成了,后续会持续更新课程的资料和作业。目前NLP课程一共分为四门,每门课程会分为三&#xff08…

吴恩达新课程:ChatGPT提示工程,ChatGPT Prompt Engineering for Developers

来源:专知 本文为课程介绍,建议阅读5分钟 您将学习如何使用大型语言模型(LLM)快速构建新的和强大的应用程序。 https://learn.deeplearning.ai/chatgpt-prompt-eng/lesson/1/introduction 在ChatGPT Prompt Engineering for Developers中,您将…

python 用户登录,密码错误3次则锁定该用户

需求: 输入用户名密码 认证成功后显示欢迎信息 输错三次后锁定 实现思路: 判断用户是否在黑名单,如果在黑名单提示账号锁定,然后退出操作。 判断账号密码是否正确,如果正确则正常登录。如果不正确有三次输入密码机会…

Git 密码输入错误解决方案

前言:有时候我们不小心输入了密码,想要重新输入一次,但是始终找不到重新输入的提示框,这是因为 Windows缓存了我们的Git账号密码作为凭证,帮助我们下次自动登录 修改Git凭证 总结:控制面板 -> 用户账户…

使用git时输错密码解决办法

在使用git在clone项目的时候出现了让输入用户名和密码,然而密码输入错误导致项目clone不下来.. 解决办法:找到在控制面板\用户帐户\凭据管理器\windows凭据\ 里面删除原来的密码,删除后就可以重新输入密码了 输入正确的密码就可以clone了

Linux中标麒麟操作系统下,多次密码输入错误后账户被锁定的解决方法

错误描述 账户在登陆时,输入密码错误次数超过限制,账户就会被锁定。此后,即使密码输入正确,也不能正常登陆。 解决方法 1、使用root账号登陆系统 root账号需要点击“未列出”,在出现的提示框中输入root,…

关于密码输错三次后锁定登录

前言 用户登录输错密码三次将自动锁定该用户,本章用mybatisplus 提示:以下是本篇文章正文内容,下面案例可供参考 一、数据库展示 数据库字段展示 erroeNum为错误次数,isLock:0未锁定,1:锁定…

linux(ubuntu)用户连续N次输入错误密码进行登陆时,自动锁定X分钟

1、编辑PAM的配置文件 sudo vim /etc/pam.d/login在第二行添加 auth required pam_tally2.so deny3 unlock_time5 even_deny_root root_unlock_time10参数介绍 even_deny_root 也限制root用户; deny 设置普通用户和root用户连续错误登陆的最大次…

用户正确输入密码会累计错误次数,累计5次后用户锁定

问题描述 提示:遇到的问题: 安全要求用户密码输入错误5次,锁定用户600秒 ,安全加固后,反馈openssh后登录pam_tally2.so计数不清零问题,用户输入正确密码pam_tall2依旧会增加错误次数 解决方案: …

Ubuntu用户连续N次输入错误密码进行登陆时自动锁定X分钟

1、编辑PAM的配置文件 sudo vim /etc/pam.d/login在第二行添加 auth required pam_tally2.so deny=3 unlock_time=5 even_deny_root root_unlock_time=10参数介绍 even_deny_root 也限制root用户; deny 设置普通用户和root用户连续错误登陆的最大次数,超过最大次数,则锁…

Git Bash输错账号密码如何重新输入

很多时候我们容易在Git Bash操作的时候,不慎输入错误的用户名或密码,此时一直提示: remote: Incorrect username or password ( access token ) 解决办法: 1.打开控制面板(快捷打开winR,输入control) 2.…

在git上输错密码,解救办法

当输入密码错误后,git会把密码保存在windows的你的当前用户名的缓存中。 我们可以在控制面板中寻找到这个缓存,再删掉就可以了。 首先,打开“控制面板”,再打开“用户账户” 点击管理你的凭据, 在点击windows凭据&am…