解读Lawyer LLaMA,延申专业领域大模型微调:数据集构建,模型训练

解读Lawyer LLaMA,延申自己领域大模型微调:数据集构建,模型训练

项目地址link

自己领域的大模型微调,实现思路大都和这篇文章是一样的,有的是基于LLaMA,或者有的是基于Chinese-LLaMA,或者是其他开源的大模型,本文基于自己训练过程和参考了老刘说NLP中的《也读Lawyer LLaMA法律领域微调大模型:从训练数据、模型训练到实验效果研读》,从模型要达到的结果出发,倒推介绍整个流程,供大家参考,

欢迎大家点赞关注,一起交流

一、模型重点关注的能力

在这里插入图片描述

专业领域的大模型应用需要具备三种能力,

1.生成回答精确,没有歧义,在任何一个专业领域,有些仅仅替换一个词就可以影响其中表达的含义,有可能会导致巨大的不同的结果,例如,定金和订金在中文只有一字之差,但它们在合同法中的含义和法律效力却完全不同,

2.理解和区分专业术语,很多概念只出现在对应的专业领域,例如台区,即使是广泛使用的词汇,其含义在不同的专业领域也是不同的,因此要在具体的句子情景中表达出不同的含义,

3.能够识别分析专业场景的实际事件,现实世界中情景总是复杂多样的,模型需要具备法律术语和应用专业领域数据来分析具体问答能力,

为了能够实现这些能力,可以使用LLaMa模型来具体实现这些功能,

1.注入专业领域的知识,收集大量的专业领域原始文本,来让模型进行无监督训练学习。

2.训练学习特定领域的技能,有监督微调模型,教模型如何用适当的知识来解决特定领域的任务。

3.用外部知识进行增强,为了使模型能够更准确和精准回答,另外引入一个信息检索模块,在生成每个回复前,首先利用用户的查询和上下文信息来检索相关的标准信息,然后在这些专业领域的文章基础上做出回答。

二、数据准备

1.预训练语料库

为提升模型在中文专业领域的回答表现,防止模型在学习专业领域数据后灾难性遗忘问题,该工作采用两种语料对LLaMA模型进行持续性训练,

首先在一个普通的多语言语料库上训练模型,以提升模型的中文能力,然后使用另一个专业领域的语料库来增强模型。

(1)多语言通用语料库

由于LLaMA主要是在英语和其他语言语料库进行训练,因此它在理解和生成中文语句方面并不完美,
为了解决这个问题,同时收集中文预训练英文语料库进行记忆重放,以避免灾难性遗忘,
具体的,为构建中文通用语料库,可以从WuDaoCorpora、CLUECorpus2020和维基百科的简体中文版本中抽取文章。
对于英文通用语料,从C4语料库中抽取文章,

(2)中文专业领域语料库

各种途径获取专业领域的数据,并按照专业和来源分类,然后解析专业数据,生成各种专业数据有没有什么比例,解析的格式是按照段落进行分段学习,问答和文本生成有没有什么区别的对待

2.专业领域指令微调数据

(1)通用能力问答公开数据集地址

https://github.com/chaoswork/sft_datasets/tree/master

(2)将专业领域数据进行数据分类构建微调数据集,再细分为多轮对话和单论对话,并使用使用ChatGPT生成回复

为了保证单轮和多轮能力,同时收集单轮和多轮对话能力,同时为了提高生成式的回答准确性,将检索文章添加到提示词中,帮助ChatGPT生成准确的回复,

1)单论问答数据的构造

让chatgpt扮演回答者,回应客户的问题,并在输入提示中,生成的回答应该满足以下要求。
1.正确引用制度条文;
2.正确理解问句含义和制度条文给出有根据的分析;
3.全面回答并分析潜在的可能性;
4.提出适当为问题来挖掘事实以帮助进一步的回答;
5.使用平实的语言;
6.给出初步意见和咨询结论。
输入ChatGPT格式例如:

{"instruction": "阅读以下文章:[],请回答:[]","input": "","output": "[答案]"}

生成格式如下:
在这里插入图片描述

2)多轮问答数据的构造

生成多轮对话,需要设计两个不同的提示词,让ChatGPT分别扮演两个对话着角色,交替使用两个提示,连同对话历史作为ChatGPT的输入
下面是github具体开放的数据例子:
在这里插入图片描述
最后收集大约16000个单论和5000个2或3轮对话。

3.外部知识进行检索增强

对于单轮问答,使用文本检索工具选择前3篇相关文章输入到提示词中,
对于多轮问答,假设对话的主题不变,继续使用相同的3篇相关文章
在这里插入图片描述
或者不用训练模型,直接使用现成的文本检索框架,请参考我的另一篇博文
文本检索系统
或者使用LangChain地址

三、模型训练

微调开源模型LLaMA的步骤,如下图从S1逐步到S12
在这里插入图片描述

可以看到,训练是逐步进行的,并做了系列对比实验
在这里插入图片描述

表中显示了模型再不同阶段对NLP任务的表现,其中每个阶段的细节,可以参考上图,(1)~(6)代表不同阶段用于训练LLaMAd的预训练语料或监督微调数据集,(1)为多语言通用语料库,(2)为中文法律语料库,(3)为通用SFT数据集,(4)为司法考试和法律咨询,(5)为多轮法律对话,(6)为多轮法律对话中增加了检索的法律文章。勾号意味着相应的语料库/数据集已在前一阶段使用,而花号意味着该语料库/数据集在当前阶段被用于训练。

1、提高LLaMA的中文表达能力,S0-S1

为提升LLaMA的中文理解和生成能力,在中文通用语料库对LLaMA进行持续的预训练,Chinese-LLaMA采用的是使用汉字扩充词表的方式,
使用英文和中文的混合语料,模型很多复杂的推理能力可能来自于英文的训练,希望模型在持续的预训练中保持这些能力。

2、加入专业领域的知识S4

加入专业领域文本进行预训练,学习专业领域的能力

3、学习推理能力S7

收集专业领域真实场景的问答对,并要求ChatGPT为提供详细的解释,在训练过程中,QA对被视为指令,模型要求给出解释。

4、学习真实回复能力S9

让模型学习到单轮问答和多轮问答数据的能力,为用户的特定查询生成合适的回复。

5、提高模型回复可靠性S12

引入法律条文检索模块,使得模型能够产生可信的回复
这里初步的实验结果表明,即使模型在持续的训练阶段反复学习这些文章,它也不能在生成时正确的使用他们,它也可能引用不相关的法律条文,或者使用语句相似的词来代替一个术语,而这个词在法律领域中的含义是截然不同的意思

这时候,我们需要一个可靠的模型来召回和用户搜索词相关的三条文档,具体的,训练一个检索模型,数据集构成方面,收集一些用户的咨询问题,并要求专业人士为每个问题标注最多3篇必要文章回复,然后训练一个基于RoBERTa或者双塔模型的文本检索模型,该模型在被保留的测试集上可以达到0.85的召recall@1和0.94的recall@5。

并且,该工作还发现,直接将检索的文章和用户的问题串联起来作为新的输入,该模型会倾向于在其响应中引用所提供的文章,而不区分它们是否与当前情景正在相关

四、实验效果

收集不同领域的英文和中文通用任务,包括自然语言推理,情感分析,常识推理,对话问题回答等,测试模型在不同阶段推理表现
在这里插入图片描述

首先,比较s0和s1的结果,可以发现LLaMA在C3上获得了+5.3%的准确率;英语常识推理方面,s1在SciQ和PIQA的时的表现也不比s0差。这表明对多语种语料库的预训练可以增强模型对中文的表达能力,而不会牺牲其对英文的表达能力。

其次,比较s2和s3,s7和s9/s8/s6的CMNLI的结果,可以发现s3/s9/s8/s6的模型,经过司法考试的例子和法律咨询的微调,可以更好地处理中文NLI任务,准确率提高到+9.3%。

最后,该模型不能处理英语NLI和情感分析任务。在所有阶段,该模型只能对所有的MRPC实例输出Yes,而当不断地训练LLaMA时,它对SST-2也不能获得明显的改善,猜测这是因为没有足够的英语NLI和情感分析的SFT例子。那么该模型就不能理解这种任务的提示中的指令。

五、总结

大模型微调思路和数据集构建方式大致是如此,实操中发现项目最难的一点在于怎么构建自己的数据,无监督数据量太大,解析起来很费功夫,有监督的数据怎么完美构建等,因此需要数据梳理之处将数据有效分类很重要,
提高模型识别其最核心的结论在于,通过加入检索模块,可以提升问答的可靠性,并且通过引入垂直领域的预巡数据和微调数据,都可以提升其领域性能。但在具体实践中,还需要考虑到领域数据和通用数据的组成情况,以及与下游任务之间的对齐情况。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/40388.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【GPT】中文大语言模型梳理与测评(C-Eval 、AGIEval、MMLU、SuperCLUE)

文章目录 概述申请后直接使用大模型开源可本地部署 通识数据集测评(C-Eval 、AGIEval、MMLU、SuperCLUE)自媒体报道SuperCLUE:中文通用大模型综合性基准C-Eval:中英测评(清华上交提出)当前排名(…

CnOpenData电商平台交易数据数据

一、数据简介 电子商务是网络化的新型经济活动,是推动“互联网+”发展的重要力量,是新经济的主要组成部分。通过电商平台获取的电商交易平台数据可以及时统计、监测数据,全方位跟踪分析电子商务市场的发展情况和发展环境&#xff…

chatgpt赋能python:Python如何关闭对话框?

Python如何关闭对话框? 如果你是一名Python编程经验丰富的工程师,你一定已经遇到过需要在Python中关闭对话框的场景。在这篇文章中,我将详细介绍如何处理这个问题,并提供一些有用的技巧和建议。 什么是对话框? 在编…

chatgpt赋能python:Python如何点击按钮关闭所有窗口

Python如何点击按钮关闭所有窗口 Python是一种高级编程语言,提供了各种编程功能和库,让程序员能够快速而有效地完成任务。在GUI编程中,关闭所有窗口是一项常见的任务。在本文中,我们将介绍如何使用Python点击按钮关闭所有窗口。 …

chatgpt赋能python:Python教程:如何关闭窗口

Python教程:如何关闭窗口 作为一门著名的编程语言,Python正日益成为越来越多开发者的首选。其简洁易读的语法和强大的功能,已经在各行各业的应用中占据了重要地位。 本篇SEO文章将会教您如何使用Python关闭一个窗口, 附有详细的代码示例。 …

chatgpt赋能python:Python怎么关闭运行窗口

Python怎么关闭运行窗口 在Python编程中,经常需要在运行代码后关闭窗口或是退出程序。本文将介绍几种方法来完成这个任务。 方法一:使用sys.exit() sys.exit()函数可以让Python程序立即退出。你可以在需要退出的时候调用这个函数。 import sys# 在代…

chatgpt赋能python:关于Python如何关闭窗口

关于Python如何关闭窗口 Python是一种广泛使用的编程语言,被越来越多的开发者采用。在Python开发中,窗口关闭是一个常见问题。以下是详细介绍如何关闭Python窗口的方法。 关闭Python窗口的方法 在Python中,有几种方法可以关闭窗口。以下是…

AI领域“百模大战”开始了!其中,这100家AI大模型最值得大家关注……

AI领域“百模大战”开始了!其中,这100家AI大模型最值得大家关注…… 中国进入“百模大战”,未来机会在哪?百模大战:最值得关注的100家AI大模型 有了产品就有了市场,有了江湖就有了竞争。 移动互联网时…

华东师范大学副校长周傲英:未来,中国需要什么样的数据库?

本文为华东师范大学副校长,CCF 会士周傲英教授在第一届 OceanBase 开发者大会带来的分享。欢迎访问 OceanBase 官网获取更多信息:https://www.oceanbase.com/ 3 月 25 日,第一届 OceanBase 开发者大会在北京举行,华东师范大学副校…

2023世界人工智能大会开幕,马斯克、杨立昆等大佬又说了什么?

今年世界人工智能大会(WAIC)开幕说了些什么? 每年世界人工智能大会,行业大佬们都会带着不同的角色、身份与立场对AI这一颠覆性的概念发表看法。我们从今年人工智能大会开幕的4组发言和对话中总结出3个可能的趋势: 其…

5款“真香”AI工具推荐

工欲善其事,必先利其器。如何更好利用AI辅助学习,工作,搞钱,好用的AI工具必不可少。 推荐5个非常好用的AI工具,也是我目前使用频率比较高和准备使用的工具,很香。 Chatgpt不在此推荐中啊,在目…

九龙证券|美股止步三连涨!纳指下挫2.48%,中概股普跌

美东时刻周三,美股三大股指低开低走,止步三日连涨。道指跌646.89点,跌幅为1.95%,报32513.94点;纳指跌263.02点,跌幅为2.48%,报10353.18点;标普500指数跌79.54点,跌幅为2.…

第二证券|鲍威尔发声:释放重磅信号,美股大涨!中概股狂涨

大家早上好!昨夜今晨又有许多大事产生:美联储主席鲍威尔证明,12月开端或许放缓加息;微软涨逾1100亿美元,美股进入技能型牛市;小鹏轿车昨日暴升近50%,中概股11月涨逾40%;法、德不满美…

不知道如何录音转文字?分享两个实用方法

相信大家都有遇到过这种类似的经历——在会议上做记录,有时内容太多,记录的速度跟不上领导讲的速度。通常情况下,我们会选择录音的方式,将会议全程录下来,回去的时候再慢慢整理。但是回放录音的过程也会耗费我们很多时…

会议录音转文字(PC版)

如何将会议录音快速转换成文字 录音转文字的方法有很多种,下列分享其中一种: 所需软件: 1.剪映(pc) 2.办公软件wps(office)3.会议录音文件 剪映PC下载地址:https://lv.ulikecam.c…

Bing Speech微软必应语音认知服务-文字语音互转

本项目使用 Bing Speech API, Bot Framework, LUIS 实现在Unity内的中文语音文字互转,还可以在UWP应用完成语义分析。 1.添加必应语音 API 到你的订阅,地址 ,点击创建,并获取API密钥; 2.修改 SpeechManager.cs的Subscr…

怎么把录音转成文字?试试这几个录音转文字软件

在工作学习中,我们常常会将一些比较重要的事项录音下来,方便后续的整理记录。借助录音转文字软件,将录音内容快速转换识别为文字,可以让我们省时省力、提高工作效率。那有哪些录音转文字软件呢?今天就给大家介绍几款录…

知乎热议 如何利用ChatGPT搞科研?

学术志 2023-05-27 21:15 发表于北京 来源:QbitAI、量子位、知乎 编辑:学妹 △ 扫码加老师进入【AI学术交流群】 这位研究僧,GPT-4都发布了,你还在纯人工搞科研吗? 已经有人实测: ChatGPT科研全流程都能用…

WormGPT: 「邪恶版」ChatGPT的道德问题和威胁

WormGPT: 「邪恶版」ChatGPT的道德问题和威胁 摘要 本论文讨论了一款名为WormGPT的「邪恶版」ChatGPT的出现,并探讨了这种恶意AI模型所带来的道德问题和数据安全威胁。WormGPT是一个由黑客设计的,能够生成恶意软件的聊天机器人。该论文着重于分析WormGP…