对行业大模型的思考

4534730704c1081d5f905218f40a8bae.png

深度学习自然语言处理 分享
知乎:黄文灏
职位:北京智源AI研究院技术负责人

看到了 @Naiyan Wang[1] 和 @刘聪NLP[2] 的两篇文章,都提到了对行业大模型的一些看法,有很多相同的想法。正好身边有很多人在讨论行业大模型,想要以行业大模型为切入点开始创业。我自己在现阶段是比较坚定地支持通用大模型的,觉得行业大模型的前景堪忧,也比较坚决地拒绝了几个行业大模型的创业邀请,写个文章记录了自己对行业大模型的思考。注意,由于大模型方向发展太快,认知在不断更新迭代,这篇文章只能作为在当下的思考逻辑,随时可能有新的变化。先附上两位大佬的文章,做个背景。

进NLP群—>加入NLP交流群

什么是行业大模型?

行业大模型,垂直大模型,领域大模型,这几个词最近被反复提到。但其实他们是缺乏准确定义的,很多人甚至迷失在了这个名字上。个人认为,行业大模型的准确说法应该是通用大模型在行业领域内应用,为解决行业问题利用行业数据训练模型。这里有两个关键点,一是通用大模型;二是行业领域数据

通用大模型指的是模型训练的时候是用了大量的通用数据的。很多人认为行业大模型是用一个7B/13B的模型架构完全用领域数据训练一个模型,因为参数量达到了“大”的标准,数据完全用的是行业数据,就称作行业大模型了。我是很反对这个做法的,大模型(foundation model其实是更准确的说法)的过人之处不是因为参数量大,而是因为通用(跨领域的通用)以及追求通用的过程中涌现出来的能力,完全用领域数据只是之前模型训练方法的改变,和大模型的核心“通用”没有任何关系。这类做法只是对大模型的生搬硬套,对解决领域问题和传统方法比没有很大的帮助。

行业领域数据,有两类用法,第一类是用行业数据对通用模型进行继续训练、微调等一系列改变模型权重的方法;第二类是不改变通用大模型的权重,用in context learning的能力通过prompt注入领域知识,或者利用外挂数据库的方式。前者由于改变了模型的权重,可以称作是训练(微调)了一个行业大模型,后者则基本只能认为是通用大模型的应用了,因为模型还是还个模型。

所以,行业大模型可以先简单定义为用行业数据重新训练、微调了一个通用大模型,来解决行业问题。用这个定义,很多现在的pr的行业大模型可能都不属于这个范畴之内。

大模型解决行业问题的几种做法

前面其实也提到了一些,这里做个总结

  1. 使用通用数据和领域数据混合,from scratch(从头开始)训练了一个大模型,最典型的代表就是BloombergGPT。

  2. 在一个通用模型的基础上做continue pretraining(继续预训练,二次预训练),像LawGPT就是做了二次预训练的。身边有很多人尝试过这个方案,但普遍反应效果一般(没有SFT来得直接),很有可能是数据配比的问题。

  3. 在一个通用模型的基础上做instruction tuning(sft),这也是现在开源社区最普遍的做法,有大量的工作比如Huatuo,ChatLaw等等。这种做法的优势是可以快速看到不错的结果,但会发现要提高上限比较困难。

  4. 领域知识库加上通用大模型,针对通用大模型见过的知识比较少的问题,利用向量数据库等方式根据问题在领域知识库中找到相关内容,再利用通用大模型强大的summarization和qa的能力生成回复。

  5. 直接用in context learning的方法,通过构造和领域相关的prompt,由通用大模型直接生成回复。随着业界把context window越做越大,prompt中可以放下越来越多的领域知识,直接用通用大模型也可以对领域问题有很好的回复。

这几种做法并不是孤立存在的,通常需要组合使用,才能最好的解决行业问题。

上面这五种做法里面,1不需要通用大模型作为基础,但需要重新训练一个size和通用大模型相当的模型,2和3都是在通用大模型的基础上或多或少对权重进行了调整,都可以认为是重新训练了一个行业大模型。4和5就只是使用了通用大模型来解决行业问题,很难称之为训练了行业大模型。可见,训练行业大模型是一个variance特别大的事情,可以像1一样几乎重新训练一遍模型,需要几百张卡,也可以像3一样用几百条数据做做sft,可能几张卡就够了。下次听到xxx宣传自己做了行业大模型的时候,一定要仔细看看用了什么做法,用了多少数据,用了多少卡,工作量有多少。不然,容易把工程量完全不同的工作放一起比较。通常来看,除了极少数的工作,现在号称自己在做行业大模型的,都只是一些微调性质的工作,工作量和成本都跟训练通用大模型差距极大。

行业大模型 vs 通用大模型

前面也提到了,我们是沿着通用大模型的思路来分析行业大模型的,即使是BloombergGPT的做法也是用大量的行业数据混上大量的通用数据来训练模型,而不是只用行业数据训练一个超大的模型。通用大模型的核心能力可以从两方面来看:知识和能力

首先,从能力角度看,用简单的比喻可以把能力理解成智商。通用大模型很厉害的一点就是通过对大量通用知识的压缩,训练了一个智商超高的模型,正是因为模型智商超高,才能对大量不同的任务通过in context learning的方式一学就会。

拿下棋举个例子。可以把通用模型看作是一个学习了大量知识的智商超群的人,可以通过告诉他规则(用prompt),不看棋谱他就能下棋了(zero-shot learning),或者给他看少量棋谱(few-shot learning),他就能下的很好。而行业大模型就相当于给一个人看大量的棋谱。如果两个人智商是有差距的(通用大模型能力差距,比如GPT4和llama,或者GPT4和国内的一众模型,又或者GPT4和GPT3.5),智商高的即使棋谱看的少,最后能力也会比较强。因为下棋在解释清楚规则后主要就是对智商的考验,智商高的对智商低的基本就是降维打击,比如柯洁去参加斗地主比赛也能很轻松夺冠一样。如果两个人的智商是接近的,当智商都很一般的时候,可能看棋谱多的那个会比较厉害;但当智商都很高的时候,棋谱可能是负作用的,可以看AlphaGo发展到后期就会发现看人类的棋谱是自己水平不能提高的主要因素。所以对智商超群的人来说,定义清楚规则以后,zero-shot才是最厉害的。可能现在的各个通用大模型(包括GPT4)还处在智商比较一般的阶段,所以我们用大量的行业知识进行训练是有收益的,还有可能用行业知识训练一个普通的通用大模型(llama)能超过顶尖的通用大模型(GPT4)在某些行业上的表现。但随着通用大模型的能力越来越强,智商的降维打击会让通用大模型对行业大模型也产生降维打击

然后,从知识角度看,通用大模型看过多少数据就能压缩多少知识,对于没看过的领域数据,通用大模型没有这方面的知识是肯定的。所以,当你问大模型,XX棋局的第135手棋下在了哪儿时,它如果没见过就只能胡说八道。即使模型能力超强,也很难幻想出历史上两个人怎么下棋的完全过程。如果模型在使用行业数据微调(重新)训练时见过这方面的知识,就有可能回答出这样的问题。但我们需要通用大模型做的是知识查询类的事情吗?如果是的话,用外挂知识库的方法是不是更容易解决。而对于外延性知识,比如对未来的预测,根据事实进行判断,逻辑推理等,有没有相关知识可能就不是最重要的因素了(类似上面关于看棋谱多了不一定有用的比喻),更重要的还是模型的能力。

因此,行业大模型可能是通用大模型能力不足时的阶段性产物。在我们追求AGI的目标下,通用大模型是解决行业问题最根本的方法。

短期来看,行业大模型对于解决行业问题是有帮助的:

  1. 有大量对行业知识进行历史性查询的任务,比如知识问答,知识检索等;

  2. 通用模型的能力往往不足以很好地根据行业问题的定义进行泛化,做到举一反三,触类旁通,通用模型不能自己演化行业发展的过程

ChatLaw就是个很好的例子,一方面大家需要对一些不常见的法规进行查询,另一方面通用模型对法律问题的处理能力不强需要大量的法律数据进行微调。

但长期来看,通用大模型可能是更本质的解决行业问题的方案,可以将行业知识以知识库的方式输入给通用模型,可以是外挂知识库也可以直接就在context里面描述了(行业知识是行业内比较本质的东西,通常不应该特别复杂;比如物理或数学,只要几个公式讲清楚基本逻辑就行了),通用大模型强大的能力可以根据知识进行演化(OpenAI的一个愿景是将人类几百年的科学发展让模型用1天复现出来),最后通用大模型在行业问题上会比行业大模型表现地跟好。在这种前提下,只需要告诉模型基本的法规,就可以解决所有法律问题,所有的历史案件对模型来说都没有正收益。

当然,这个过程可能很长,但如果我们相信通用大模型是相信AGI的话,这应该是一条更正确的路。

训练行业大模型的坑

最后,写一个和行业大模型相关的重要问题:数据配比。经常会被问到的问题是,用了大量的行业数据,模型怎么反而变弱了。比如,对一个回答问题能力不错的模型,用大量的金融指令做指令微调以后,模型变得不会回答问题了。对这个问题,正好做了不少实验,也和周边很多有实践的人讨论了这方面的问题。得到的最宝贵的经验就是:数据配比!数据配比!数据配比!

如果有人仔细研究过BloombergerGPT,就会发现模型的能力其实很差,比通用大模型会差很多。这里面犯的最大的错误就是数据配比,他们应该是用1:1的比例混合通用数据和金融数据。首先,不知道他们对金融数据是如何清洗和保证数据质量的,个人觉得他们500B的金融数据质量可能是低于500B的通用数据的质量的,这个对模型最后能力的局限有比较大的影响,通用数据和金融数据必须是用同样的标准做了高质量清洗和质量控制的。其次,1:1的数据比例大概率是一个很差的选择。对于复现chatgpt3.5来说,数据配比应该是OpenAI最核心的秘密和比别人领先最后的地方。和很多OpenAI的人员交流下来,他们在这块做了大量的实验并积累了大量的经验(当然,他们的资源可以支撑他们做这个事情,每个实验都是代价不菲的)。

由于没有大量的资源做from scratch的通用数据和领域数据配比的实验,个人的经验完全来自于continue pretraining和sft。对continue pretraining来说,如果要让模型不丢失通用能力,比如summarization,qa等,领域数据的比例要在15%以下,一旦超过这个阈值,模型的通用能力会下降很明显。所以,在做领域数据continue pretraining的时候,一定更要混大量的通用数据。而且,这个阈值和不同的预训练模型是相关的,有些模型比如llama需要控制的阈值更低。这个阈值其实是个经验主义的结论,我也不能保证是适用于所有人的,但和不少同行交流下来,感觉大家的范围都在10%-15%左右。而且,该阈值和预训练模型的大小,预训练时原始数据的比例等条件都息息相关,需要在实践中反复修正(这个时候就能看出scaling law的重要性了)。这个结果其实和ChatGPT大概用不到10%的中文数据就能得到一个很不错的中文模型的结果还挺相似的。所以,我猜测BloombergerGPT如果把金融数据质量控制做的更好一点,清洗出大概200B的数据,混上1.4T左右的通用数据,可能会得到一个比较强大的金融领域模型。不过,这个经验也告诉我们不要轻易用continue pretraing或者from scratch pretraining的方法做行业大模型,每100B的领域数据,需要配上700B-1000B的通用数据,这比直接训练通用大模型要困难多了。

对sft来说,这个比例就可以提高不少,大概领域数据和通用数据比例在1:1的时候还是有不错的效果的。当然,如果sft的数据量少,混不混数据的差别就不太大了。所以说,做pretraining不仅耗资源,需要大量的卡和数据,还需要大量的实验去调数据配比。每次有人和我说通过pretraining的方法做了行业大模型的时候,我通常是不信的。做sft不是香多了吗?

所以,个人对解决行业问题的建议是,看要解决什么问题。简单的问题,写写prompt就行了,prompt写好了很多时候比sft还管用,再配上向量数据库,其实70%能解决的行业问题用这个方法就解决了;稍微复杂点的问题,做一下sft,稍微混点通用数据,别全用领域数据做指令了,剩下的30%能解决的行业问题就考这个方法了;更复杂的问题,再等等吧,通用大模型还没发展到那一步,别期望太高了。

截取部分留言:

06171681981558b7dbb7855a39e3cd54.png

f3736cfa746def9b2694dc223e8b52b9.png

1a31b7bc11f6fc2b9b7917d25d9b3270.png

原文链接:https://zhuanlan.zhihu.com/p/643805698


进NLP群—>加入NLP交流群

参考资料

[1] 

关于大模型和自动驾驶的几个迷思: https://zhuanlan.zhihu.com/p/642846310

[2] 

垂直领域大模型的一些思考及开源模型汇总: https://zhuanlan.zhihu.com/p/642611747

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28417.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

浅谈爆火的AIGC会不会是下一个元宇宙?

OpenAI终于发布了ChatGPT安全方法,这距离意大利政府公开宣布全面禁止ChatGPT还不到一周。 ChatGPT对隐私规则的侵犯和版权问题的触及,伴随一季度迅速在全球范围内的爆火而出现。 紧随意大利的是,德国、日本、法国、加拿大和美国&#xff0c…

斯坦福大学AI课程;创始人剽窃丑闻后 Stability AI 两名高管离职,公司前景存疑

🦉 AI新闻 🚀 Windows Copilot:微软的智能AI助手助力Windows操作系统革命 摘要:微软发布了Windows Copilot的开发者预览版更新。Windows Copilot是微软最新推出的智能助手,通过它用户可以无门槛地使用Windows的各种功…

入职仅1年,谷歌高管不满开发方向后离职!网友:“雪上加霜,谷歌AR业务要凉凉?”...

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 过去数月,谷歌的 AR 业务可谓是「动荡不安」—— 裁员、改组、 AR/VR 主管 Clay Bavor 离职。 昨天,谷歌人事变动再起, AR 操作系统团队负责人 Mark …

2023 年 4 月很火的网站

最近chatgpt持续火热,基于chatgpt的网站/工具越来越多,今天分享几个很火的网站,之前分享过的上百个实用网站同步到我的博客了 https://sushengbuhuo.github.io/blog chatdoc 一个基于 ChatGPT 的文档阅读助手http://www.chatdoc.com &#x…

现场拔网线!第四范式版GPT能力首秀,有点不一样

金磊 发自 第四范式大厦量子位 | 公众号 QbitAI 国产大模型能大战,又有一员猛将入局。 就在刚刚,第四范式自研大模型“式说”(4Paradigm SageGPT)在上线2个月后,终于来了一波能力首秀。 而且纵观整场活动的发布&#x…

2023 AI大语言模型TOP10

注:本次评测时间截至2023.5.10,评价指标主要包括语义理解、逻辑推理、情感分析、百科知识、文本质量五个维度) 今年春节档,一部《流浪地球2》点燃了沉寂许久的中国科幻电影市场,也让MOSS这一电影里冷酷无情的强人工智能…

百度搜索迎来奇点 大模型掀起代际变革

每一轮技术革命掀起的浪潮,大部多数人还没来得及思考或者布局,已经消失于海浪中。机会是给有准备的人的,要发现新兴技术的亮点,并立足自身去积极拥抱它,最后转化为自身前进的动力,跨越周期,迎来…

劲爆!154页微软GPT研究报告:人工通用智能的火花,GPT-4的早期实验

省时查报告-专业、及时、全面的行研报告库 省时查方案-专业、及时、全面的营销策划方案库 【免费下载】2023年2月份热门报告合集 ChatGPT调研报告(仅供内部参考) 文心一言、GPT3.5及GPT4应用测评对比报告 ChatGPT团队背景研究报告 ChatGPT的发展历程、原…

这 7个 AI 写作助手,太实用了

想象一下:你正在办公桌前为你的广告输入标题,但你突然思维阻塞并卡住了,可惜这时还没有神奇的软件可以帮助你想出点子。或许是有的? 2023 年,AI 写作工具似乎不可避免地会很快融入我们的工作流程中。现代知识工作者已…

怎样让chatGPT给你打工然后月入过百?(二)

上一篇:怎样让chatGPT给你打工然后月入过千? 前言 过千不现实,实测了一个月(2月份测的),收入 当时文库任务的行情好,每天都有任务,现在不行了经常刷不出任务,而且脚本…

2022软件质量与管理-考题复习

最下面有2022的软件工程与管理考题~ 简答题 【2021】估算的要点(10分) 尽可能划分详细一些; 建立对估算结果的信心; 依赖数据; 估算是利益相关者达成共识的过程,而不是结果。 【2021】基于Yield构建预测模型(10分) 基于Yield指标构…

私有部署、重构企业软件,第四范式发布大模型“式说”

大模型领域再添重要一员! 4月26日,第四范式首次向公众展示其大模型产品「式说3.0」,并首次提出AIGS战略(AI-Generated Software):以生成式AI重构企业软件。式说将定位为基于多模态大模型的新型开发平台&…

从0到1使用chatGPT以及简单调用JAVA api实现网页的交互

文章目录 前言注册过程如何使得提示词更加的准确?api的简单调用用httpclient去手动填充请求头现成封装的方法 最终效果 前言 本文探讨的是从0到1,如何注册GPT账号,如何编写提示词(prompt),以及简单的java调…

Laf 的价格被打下来了,最高买一送一!(限时五天)

Laf 公众号已接入了 GPT4,完全免费!欢迎前来调戏👇 Laf 上线以来本着丝滑的用户体验,良心的价格,收获众多用户好评,为了回馈新老用户的支持与厚爱,本次 618 放出了巨额优惠,最高可买…

人人都能接入 Claude,赚取自己的第二桶金

Laf 公众号已接入了 AI 绘画工具 Midjourney&#xff0c;可以让你轻松画出很多“大师”级的作品。同时还接入了 AI 聊天机器人&#xff0c;支持 GPT、Claude 以及 Laf 专有模型&#xff0c;可通过指令来随意切换模型。欢迎前来调戏&#x1f447; <<< 左右滑动见更多 &…

神理论 | 我面向淘宝编程,而你面向什么编程?(文末赠书5本)

神理论 | 我面向淘宝编程&#xff0c;而你面向什么编程&#xff1f; 陌生人一定会疑问&#xff0c;嵌入式跟taobao有半毛钱关系啊&#xff1f;那么本文&#xff0c;博主就跟你聊聊&#xff0c;如何面向淘宝学习嵌入式&#xff01; 文章目录 1 写在前面2 面向XXX编程3 面向淘宝学…

一致性哈希(哈希环)解决数据分布问题

哈希算法是程序开发过程中最广泛接触到的的算法之一&#xff0c;典型的应用有安全加密、数据校验、唯一标识、散列函数、负载均衡、数据分片、分布式存储。前些天刚接触到夜莺项目&#xff0c;听介绍目前V6版本集群方式部署&#xff0c;告警生成是通过一致性哈希&#xff08;哈…

墨尔本python培训班_墨尔本大学商业专业

澳大利亚墨尔本大学作为国际知名的高等教育学府&#xff0c;一直以来在各个专业领域都有着十分出色的表现。墨尔本大学商业专业在最近几年逐渐受到广泛的关注&#xff0c;每年申请留学的人数不断增加。墨尔本大学商业专业是一门综合性的专业课程&#xff0c;该专业毕业生的就业…

墨尔本学计算机硕士专业,2020年墨尔本大学计算机硕士详细介绍

墨尔本大学计算机硕士课程中被ACS(澳大利亚计算机协会)认证的课程&#xff1a; (1)Master of Information Systems (12 subject program) (CRICOS duration: 78 weeks): 学制为1.5年&#xff0c;2月和7月开学;此课程对申请人的本科专业背景无限制性要求&#xff0c;但是要求有一…

墨尔本计算机专业本科几年,墨尔本大学本科计算机科学与软件如何

原标题&#xff1a;墨尔本大学本科计算机科学与软件如何 墨尔本大学本科计算机科学与软件如何 墨尔本大学的计算机科学软件属于研究性项目,将为学生提供承接研究项目的机会,同时也会学习一些职业技巧相关的授果型科目。这个项目将为继续PhD深造提供一条捷径。职业发展:应用程序…