垂直领域大模型的一些思考及开源模型汇总

来自:NLP工作站

进NLP群—>加入NLP交流群

写在前面

大家好,我是刘聪NLP。

迄今为止,应该没有人还怀疑大模型的能力吧?但目前大模型实现真正落地,其实还有一段艰难的路要走。

对于ToC端来说,广大群众的口味已经被ChatGPT给养叼了,市场基本上被ChatGPT吃的干干净净。虽然国内大厂在紧追不舍,但目前绝大多数都还在实行内测机制,大概率是不会广泛开放的(毕竟,各大厂还是主盯ToB、ToG市场的,从华为在WAIC的汇报就可以看出)。而对于ToB和ToG端来说,本地化部署、领域or行业内效果绝群、国产化无疑就成为了重要的考核指标。

个人觉得垂直领域大模型或者说大模型领域化、行业化才是大模型落地的核心要素。恰好前几天ChatLaw(一款法律领域大模型产品)也是大火,当时也是拿到了一手内测资格测试了一阵,也跟该模型的作者聊了很久。正好利用周末的时间,好好思考、梳理、汇总了一些垂直领域大模型内容。

文章内容将从ChatLaw展开到垂直领域大模型的一些讨论最后汇总一下现有的开源领域大模型

聊聊对ChatLaw的看法

ChatLaw的出现,让我更加肯定未来大模型落地需要具有领域特性。相较于目前领域大模型,ChatLaw不仅仅是一个模型,而是一个经过设计的大模型领域产品,已经在法律领域具有很好的产品形态。

Paper: https://arxiv.org/pdf/2306.16092.pdf
Github: https://github.com/PKU-YuanGroup/ChatLaw
官网: https://www.chatlaw.cloud/

可能会有一些质疑,比如:不就是一个langchain吗?法律领域它能保证事实性问题吗?等等等。但,我觉得在否定一件事物的前提,是先去更深地了解它

ChatLaw共存在两种模式:普通模型和专业模型。普通模式就是仅基于大模型进行问答。b5562136d927c60018230ad03021170c.png而专业模式是借助检索的手段,对用户查询进行匹配从知识库中筛选出合适的证据,再根据大模型汇总能力,得到最终答案。

3e2c5614dce2ae40fd61fd99d443752b.png615e8cda8df900c0ab740ad960f510aa.png2af42dddcd283e117a2ec1b5c9a462c3.png334d1757e1b8ae44462842c4321fb658.png

由于专业模式,借助了知识库的内容,也会使得用户得到的效果更加精准。而在专业版中,ChatLaw制定了一整套流程,如上图所示,存在反问提示进行信息补全,用户信息确认、相似案例检索、建议汇总等。

作者@JessyTsui(知乎) 也说过,其实ChatLaw=ChatLaw LLM + keyword LLM + laws LLM。而keyword LLM真的让我眼前一亮的,之前对关键词抽取的理解,一直是从文本中找到正确的词语,在传统检索中使用同义词等方法来提高检索效果。而keyword LLM利用大模型生成关键词,不仅可以找到文本中的重点内容,还可以总结并释义出一些词。使得整个产品在检索证据内容时,效果更加出色。e6b5851005d99424b6c33f3973c6207a.png

同时,由于不同模型对不同类型问题解决效果并不相同,所以在真正使用阶段,采用HuggingGPT作为调度器的方式,在每次用户请求的时候去选择调用更加适配的模型。也就是让适合的模型做更适合的事情

聊聊对垂直领域大模型的看法

现在大模型的使用主要就是两种模型,第一种是仅利用大模型本身解决用户问题;第二种就是借助外部知识来解决用户问题。而我个人觉得是“借助外部知识进行问答”才是未来,虽然会对模型推理增加额外成本,但是外部知识是缓解模型幻觉的有效方法。

但随着通用大模型底层能力越来越强,以及可接受文本越来越长,在解决垂直领域问题时,完全可以采用ICL技术,来提升通用大模型在垂直领域上的效果,那么训练一个垂直领域大模型是否是一个伪命题,我们还有必要做吗?

个人认为是需要的,从几个方面来讨论:

  • 1、个人觉得真正垂直领域大模型的做法,应该从Pre-Train做起。SFT只是激发原有大模型的能力,预训练才是真正知识灌输阶段,让模型真正学习领域数据知识,做到适配领域。但目前很多垂直领域大模型还停留在SFT阶段。

  • 2、对于很多企业来说,领域大模型在某几个能力上绝群就可以了。难道我能源行业,还需要care模型诗写的如何吗?所以领域大模型在行业领域上效果是优于通用大模型即可,不需要“即要又要还要”。

  • 3、不应某些垂直领域大模型效果不如ChatGPT,就否定垂直领域大模型。有没有想过一件可怕的事情,ChatGPT见的垂直领域数据,比你的领域大模型见的还多。但某些领域数据,ChatGPT还是见不到的。

  • 4、考虑到部署成本得问题,我觉得在7B、13B两种规模的参数下,通用模型真地干不过领域模型。及时175B的领域大模型没有打过175B的通用模型又能怎么样呢?模型参数越大,需要数据量越大,领域可能真的没有那么多数据。

PS:很多非NLP算法人员对大模型产品落地往往会有一些疑问: 

Q:我有很多的技术标准和领域文本数据,直接给你就能训练领域大模型了吧? 

A:是也不是,纯文本只能用于模型的预训练,真正可以进行后续问答,需要的是指令数据。当然可以采用一些人工智能方法生成一些指数据,但为了保证事实性,还是需要进行人工校对的。高质量SFT数据,才是模型微调的关键。 

Q:你用领域数据微调过的大模型,为什么不直接问答,还要用你的知识库? 

A:外部知识主要是为了解决模型幻觉、提高模型回复准确。 

Q:为什么两次回复结果不一样? 

A:大模型一般为了保证多样性,解码常采用Top-P、Top-K解码,这种解码会导致生成结果不可控。如果直接采用贪婪解码,模型生成结果会是局部最优。 

Q:我是不是用开源6B、7B模型自己训练一个模型就够了? 

A:兄弟,没有训练过33B模型的人,永远只觉得13B就够了。

以上是个人的一些想法,以及一些常见问题的回复,不喜勿喷,欢迎讨论,毕竟每个人对每件事的看法都不同。

开源垂直领域大模型汇总

目前有很多的垂直领域大模型已经开源,主要在医疗、金融、法律、教育等领域,本小节主要进行「中文开源」模型的汇总及介绍。

「PS:一些领域大模型,如未开源不在该汇总范围内;并且欢迎大家留言,查缺补漏。」

医疗领域

非中文项目:BioMedLM、PMC-LLaMA、ChatDoctor、BioMedGPT等,在此不做介绍。

MedicalGPT-zh

Github: https://github.com/MediaBrain-SJTU/MedicalGPT-zh
  • 简介:基于ChatGLM-6B指令微调的中文医疗通用模型。

  • 数据:通过对16组诊疗情景和28个科室医用指南借助ChatGPT构造182k条数据。数据也已开源。

  • 训练方法:基于ChatGLM-6B,采用Lora&16bit方法进行模型训练。

DoctorGLM

Github: https://github.com/xionghonglin/DoctorGLM
  • 简介:一个基于ChatGLM-6B的中文问诊模型。

  • 数据:主要采用CMD(Chinese Medical Dialogue Data)数据。

  • 训练方法:基于ChatGLM-6B模型,采用Lora和P-tuning-v2两种方法进行模型训练。

PS:数据来自Chinese-medical-dialogue-data项目。

Huatuo-Llama-Med-Chinese

Github: https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
  • 简介:本草(原名:华驼-HuaTuo): 基于中文医学知识的LLaMA微调模型。

  • 数据:通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,数据共开源9k条。

  • 训练方法:基于Llama-7B模型,采用Lora方法进行模型训练。

Med-ChatGLM

Github: https://github.com/SCIR-HI/Med-ChatGLM
  • 简介:基于中文医学知识的ChatGLM模型微调,与本草为兄弟项目。

  • 数据:与Huatuo-Llama-Med-Chinese相同。

  • 训练方法:基于ChatGLM-6B模型,采用Lora方法进行模型训练。

ChatMed

Github: https://github.com/michael-wzhu/ChatMed
  • 简介:中文医疗大模型,善于在线回答患者/用户的日常医疗相关问题.

  • 数据:50w+在线问诊+ChatGPT回复作为训练集。

  • 训练方法:基于Llama-7B模型,采用Lora方法进行模型训练。

ShenNong-TCM-LLM

Github: https://github.com/michael-wzhu/ShenNong-TCM-LLM
  • 简介:“神农”大模型,首个中医药中文大模型,与ChatMed为兄弟项目。

  • 数据:以中医药知识图谱为基础,采用以实体为中心的自指令方法,调用ChatGPT得到11w+的围绕中医药的指令数据。

  • 训练方法:基于Llama-7B模型,采用Lora方法进行模型训练。

BianQue

Github: https://github.com/scutcyr/BianQue
  • 简介:扁鹊,中文医疗对话模型。

  • 数据:结合当前开源的中文医疗问答数据集(MedDialog-CN、IMCS-V2、CHIP-MDCFNPC、MedDG、cMedQA2、Chinese-medical-dialogue-data),分析其中的单轮/多轮特性以及医生问询特性,结合实验室长期自建的生活空间健康对话大数据,构建了千万级别规模的扁鹊健康大数据BianQueCorpus。

  • 训练方法:扁鹊-1.0以ChatYuan-large-v2作为底座模型全量参数训练得来,扁鹊-2.0以ChatGLM-6B作为底座模型全量参数训练得来。

SoulChat

Github: https://github.com/scutcyr/SoulChat
  • 简介:中文领域心理健康对话大模型,与BianQue为兄弟项目。

  • 数据:构建了超过15万规模的单轮长文本心理咨询指令数据,并利用ChatGPT与GPT4,生成总共约100万轮次的多轮回答数据。

  • 训练方法:基于ChatGLM-6B模型,采用全量参数微调方法进行模型训练。

法律领域

LaWGPT

Github: https://github.com/pengxiao-song/LaWGPT
  • 简介:基于中文法律知识的大语言模型。

  • 数据:基于中文裁判文书网公开法律文书数据、司法考试数据等数据集展开,利用Stanford_alpaca、self-instruct方式生成对话问答数据,利用知识引导的数据生成,引入ChatGPT清洗数据,辅助构造高质量数据集。

  • 训练方法:(1)Legal-Base-7B模型:法律基座模型,使用50w中文裁判文书数据二次预训练。(2)LaWGPT-7B-beta1.0模型:法律对话模型,构造30w高质量法律问答数据集基于Legal-Base-7B指令精调。(3)LaWGPT-7B-alpha模型:在Chinese-LLaMA-7B的基础上直接构造30w法律问答数据集指令精调。(4)LaWGPT-7B-beta1.1模型:法律对话模型,构造35w高质量法律问答数据集基于Chinese-alpaca-plus-7B指令精调。

ChatLaw

Github: https://github.com/PKU-YuanGroup/ChatLaw
  • 简介:中文法律大模型

  • 数据:主要由论坛、新闻、法条、司法解释、法律咨询、法考题、判决文书组成,随后经过清洗、数据增强等来构造对话数据。

  • 训练方法:(1)ChatLaw-13B:基于姜子牙Ziya-LLaMA-13B-v1模型采用Lora方式训练而来。(2)ChatLaw-33B:基于Anima-33B采用Lora方式训练而来。

LexiLaw

Github: https://github.com/CSHaitao/LexiLaw
  • 简介:中文法律大模型

  • 数据:BELLE-1.5M通用数据、LawGPT项目中52k单轮问答数据和92k带有法律依据的情景问答数据、Lawyer LLaMA项目中法考数据和法律指令微调数据、华律网20k高质量问答数据、百度知道收集的36k条法律问答数据、法律法规、法律参考书籍、法律文书。

  • 训练方法:基于ChatGLM-6B模型,采用Freeze、Lora、P-Tuning-V2三种方法进行模型训练。

LAW-GPT

Github: https://github.com/LiuHC0428/LAW-GPT
  • 简介:中文法律大模型(獬豸)

  • 数据:现有的法律问答数据集和基于法条和真实案例指导的self-Instruct构建的高质量法律文本问答数据。

  • 训练方法:基于ChatGLM-6B,采用Lora&16bit方法进行模型训练。

lawyer-llama

Github: https://github.com/AndrewZhe/lawyer-llama
  • 简介:中文法律LLaMA

  • 数据:法考数据7k、法律咨询数据14k

  • 训练方法:以Chinese-LLaMA-13B为底座,未经过法律语料continual training,使用通用instruction和法律instruction进行SFT。

金融领域

非中文较好的项目:BloombergGPT、PIXIU等,在此不做介绍。

FinGPT

Github: https://github.com/AI4Finance-Foundation/FinGPT
  • 简介:金融大模型

  • 数据:来自东方财富

  • 训练方法:基于ChatGLM-6B,采用Lora方法训练模型。

FinTuo

Github: https://github.com/qiyuan-chen/FinTuo-Chinese-Finance-LLM
  • 简介:一个中文金融大模型项目,旨在提供开箱即用且易于拓展的金融领域大模型工具链。

  • 数据:暂未完成。

  • 训练方法:暂未完成。

教育领域

EduChat

Github: https://github.com/icalk-nlp/EduChat
  • 简介:以预训练大模型为基底的教育对话大模型相关技术,提供教育场景下自动出题、作业批改、情感支持、课程辅导、高考咨询等丰富功能,服务于广大老师、学生和家长群体,助力实现因材施教、公平公正、富有温度的智能教育。

  • 数据:混合多个开源中英指令、对话数据,并去重后得到,约400w。

  • 训练方法:基于LLaMA模型训练而来。

汇总会定期更新,欢迎大家留言补充。但由于公众号上更新比较麻烦,请点击【阅读原文】,收藏对应知乎内容。

请多多关注知乎「刘聪NLP」,有问题的朋友也欢迎加我微信「logCong」私聊,交个朋友吧,一起学习,一起进步。我们的口号是“生命不止,学习不停”。


进NLP群—>加入NLP交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22151.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

幂律智能联合智谱AI发布千亿参数级法律垂直大模型PowerLawGLM

前言 2023年是当之无愧的“大模型之年”,据瑞银集团的一份报告显示,ChatGPT推出仅仅两个月后,月活用户已经突破了1亿,成为史上用户增长速度最快的消费级应用程序。 在炙热的大模型赛道里,基于中文大模型的发布也是层…

三行代码调用大模型裁判PandaLM:保护隐私、可靠、可复现

©作者 | 王晋东 我们训练了一个专门用于评估大模型性能的裁判大模型:PandaLM,并提供了接口,仅需三行代码就可以调用PandaLM大模型进行保护隐私、可靠、可复现及廉价的大模型评估。 背景介绍 “赵老师,我们用不同基座和参数训…

让Ai帮你工作(4)--锁定图片生成角色

背景: Gpt4多模态模型上来后,MJ也是紧接着发布了V5,微软发布自己Ai作图工具,Abode、unity这些传统老牌作图软件工具也是紧跟着发布自己的AI作图插件工具。这已经标志着Ai作图已经成为计算成像的另一条生成链。 各大厂都已经发布了…

【LLM】大模型值得探索的十个研究方向

note 基础理论:大模型的基础理论是什么? 网络架构:Transformer是终极框架吗? 高效计算:如何使大模型更加高效? 高效适配:大模型如何适配到下游任务? 可控生成:如何实…

R语言 星相图和stars函数的用法

星相图是雷达图的多元表达形式,每个变量在图中都占据着一定的位置,想绘制一幅星相图,需要用到Rstudio中自带的graphic包得stars()函数 其用法如下: stars(x,full TRUE,draw.segments FALSE,key.locc(xcoo…

r语言绘制星相图

星相图是雷达图的多元表达形式,每个变量在图中都占据着一定的位置,想绘制一幅星相图,需要用到Rstudio中自带的graphic包得stars()函数 其用法如下: stars(x,full TRUE,draw.segments FALSE,key.locc(xcoo…

r语言中将茎叶图旋转90度_R语言(02)绘图

基本图形的绘制 在R语言(01)中,最后的一个综合训练,我们生成了一部分数据,现在我们就用这些数据为例,来展示R是如何绘制一些图表的。 数据的导入 通过读取数据文件,我们可以导入之前产生的数据。 1 2 3 4 5 6 7 8 9 10…

R语言小总结(基础篇)

🐱‍🐉🐱‍🐉🐱‍🐉一起来干R语言,冲冲冲!!! 🤗🤗🤗欢迎大佬们来指点指点鸭~~~ 参考资料: 1.多元统计分析及R语…

APISpace 生日密码API

APISpace 的 生日密码 API,根据出生日期查询生日密码。每个人的生日都是个迷,星相命理给我们生命的启示,不同的生日都会有不同的命运。生日总有神奇的暗示,凭出生日期的数字测出内在性格和潜在力量。这里帮你揭开【生日密码】的神秘面纱。 返…

R 多元数据可视化

多元数据可视化 1.数据描述2.调入数据3.条图3.1 按行做均值条图3.2 按列做均值条图 4.箱尾图5.星相图5.1具有图例的360度星相图5.2具有图例的180度星相图 6. 脸谱图(需加载aplpack)7. 调和曲线图(需加载mvstats包)8. 案例全部程序…

R(现代统计图形)软件的使用

1.R软件的下载安装 1.R官网地址:https://www.r-project.org/ 2.下载流程: 3.安装: 双击运行,语言简体中文,问题不大,都懂的,能不装C盘就不装: 后面我都默认。 4.安装成功&…

面向IoT的协议选择思考

对于使用传感器和保持连接性的IoT系统而言,如何使用这些元素和多种互联网技术相结合呢? 互联网协议并不陌生, 但是IoT相关的互联网协议可能是有不同, 有些协议被用来辅助塑造系统。TCP/IP协议栈上有多个应用层协议, 每种协议都有自己的优势和…

【多元统计分析与R语言】【详解】使用教材P84页表3-2进行多元数据简单R分析:定量变量的分析(直方图、散点图)、定性变量的分析并绘制绘制均值条图、箱尾图、星相图、调和曲线图

可视化[教材P84页表3-2] 1.题目2.题目详解2.1.多元数据简单R分析:定量变量的分析(直方图、散点图)、定性变量的分析(单因素分析、多维列联表)。参考教材P45-P52页。2.2.绘制均值条图、箱尾图、星相图、调和曲线图。参考…

星相

今天看了一个死于白血病17岁男孩的盘,心情沉重。人逃不过宿命,当这个宿命是死亡的时候,就额外让人无奈。尤其是,你看到命运已经这样写下了。我还是比较喜欢卜卦盘,简单直接。问的问题也比较不关痛痒,跟这个…

R语言实战--R语言数据可视化中各种图形的函数命令及含义(散点图,星相图,箱线图等)

散点图 > plot(x1,x2)直方图 可以用来表示不同值出现的频率 > hist(x$x1)箱线图 > boxplot(x$x1,x$x2,x$x3)箱子中间的黑色粗线为样本的中位数。比如第一个图为90箱子的上下横线分别表示样本的25%分位线以及75%分位线,意思是有25%的样本数在上横线以上。…

R以国民CPI数据为例绘制箱尾/条状/星相/饼图

本博文源于暨南大学的mooc课程《多元数据统计分析》,如果大家没有装R语言的,可以查看此博文,手把手带你装R R语言安装 下面我们就开始今天的学习吧(ps:博主看matlab看哭了,太难了)。 国民CPI数据分析准备 我会把这个数据上传至资…

取代ChatGPT,腾讯的二次元生成器居然成海外网友新宠​

海外爆红,服务器被挤垮,还顺手普及了点中文? —— 文|杜晨 编辑|VickyXiao 图片来源 | 腾讯 还在沉溺于 ChatGPT 无法自拔? 外国网友早就 move on 了! 这两天,另一个AIGC&#…

当 ChatGPT 教我学操作系统

还记得 2021 年 11 月 8 号我开始写 Linux 0.11 的源码解读系列。 当初为了写这个系列,把 Linux 0.11 源码和相关解读的书籍都翻烂了,查阅资料理解代码的过程非常痛苦,有的时候一个小的卡点就要好几天才能整明白。 就比如最开头的位于 boots…

《花雕学AI》你知道人工智能ChatGPT在10秒钟里能写出多少种标题吗?我试了24次,惊呆了!

今天准备测试AI绘画,使用几个不同的AI平台来生成猫娘图片,以此具体学习绘图的AI咒语。这篇博客用什么标题好呢?于是,我开始关心如何优化标题,还是老办法,不懂就问ChatGPT(没有正式账号&#xff…

【固收研究】资金面分析

资金面,参考了一些友商的研究,主要是看货币政策,一般是从两个角度出发,一个是回购市场方面,也就是央行的公开操作;另一个是利率方面,主要是分析同业存单利率,也叫从存单市场方面进行…