垂直领域大模型是指在特定的领域或行业中经过训练和优化的大型语言模型。与通用语言模型相比,垂直领域大模型更专注于某个特定领域的知识和技能,具备更高的领域专业性和实用性。
题图 from unsplash
与通用大模型相比,垂直领域大模型具有以下优势和劣势:
优势:
领域专业性:垂直领域大模型经过专门的训练,能够更好地理解和处理特定领域的知识、术语和上下文。
高质量输出:由于在特定领域中进行了优化,垂直领域大模型在该领域的输出质量通常比通用大模型更高。
特定任务效果更好:对于特定领域的任务,垂直领域大模型通常比通用大模型表现更好。
劣势:
数据需求和训练成本:垂直领域大模型需要大量的特定领域数据进行训练,这可能会面临数据收集和标注的挑战。
适应性限制:垂直领域大模型在特定领域中的适应性较强,但在其他领域的表现可能相对较弱。
更新和维护成本:由于特定领域的知识和要求经常变化,垂直领域大模型需要定期更新和维护,以保持与最新发展的同步。
下面介绍几个知名度较高的垂直领域大模型,涉及教育、金融、医学、法律四个领域。
MathGPT 教育大模型
学而思正在进行自研数学大模型的研发,命名为MathGPT。面向全球数学爱好者和科研机构,以数学领域的解题和讲题算法为核心。据透露,MathGPT将先从中小学数学做起,逐步覆盖全年龄学段和解题种类。
目前已经取得阶段性成果,并将于年内推出基于该自研大模型的产品级应用。
BloombergGPT 金融大模型
近期根据彭博社报告显示,其构建迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型—BloombergGPT。
BloombergGPT 和 GPT模式一样,也是基于 Transformer架构的,采用的是译码器的技术路线。通过比较, BloombergGPT模型参数为500亿,在GPT-2 (1.5亿)和GPT-3 (1750亿)之间。Bloomberg构建了目前规模最大的金融数据集 FINPILE,通过对通用文本+金融知识的混合训练,使得 BloombergGPT在执行金融任务方面的表现超过了现有的通用 LLM模型,而在通用场景方面的表现则与现有的通用 LLM模型基本持平。
BenTsao 中文医学模型
https://github.com/SCIR-HI/Huatuo-Llama-Med-Chinese
本草原名华驼(HuaTuo),是一个基于中文医学知识的LLaMA-7B微调模型。通过医学知识图谱和GPT3.5 API构建了中文医学指令数据集,并在此基础上对LLaMA进行了指令微调,提高了LLaMA在医疗领域的问答效果。
尝试利用GPT3.5 API将医学文献中的【结论】作为外部信息融入多轮对话中,在此基础上对LLaMA进行了指令微调。目前,团队只开放针对"肝癌"单个疾病训练的模型参数。在未来,我们计划发布融入文献结论的医学对话数据集,并且会针对“肝胆胰”相关16种疾病训练模型。
LaWGPT 中文法律知识模型
https://github.com/pengxiao-song/LaWGPT/
LaWGPT 是一系列基于中文法律知识的开源大语言模型,该系列模型在通用中文基座模型(如 Chinese-LLaMA、ChatGLM 等)的基础上扩充法律领域专有词表、大规模中文法律语料预训练,增强了大模型在法律领域的基础语义理解能力。在此基础上,构造法律领域对话问答数据集、中国司法考试数据集进行指令精调,提升了模型对法律内容的理解和执行能力。
不远的将来会有更多垂直领域的大模型面世,百模大战已经拉开序幕,AI渗透到千行百业只是时间问题,我们一起见证机器崛起吧。
扩展阅读:
大语言模型突围而出
基于 AI大模型训练自己的小模型
站在山巅看 GPT 推动的井喷式 AI 浪潮
聊聊 ChatGPT 的逻辑架构与赚钱模式