原文:个性化对话模型及知识库:自有数据在LLM上的应用方案整理 - 知乎
最近的这几个月,AIGC场景的模型与应用开始大量涌现。其中LLM(Large Language Models,大语言模型),所展现出来的自然语言理解与自然语言生成能力,不止让普通人惊喜,同样让NLP研究者看到了无数可能性。
相信过去几年在NLP场景做过应用探索的朋友,经常会因为NLG(自然语言生成)效果较差,不得不使用基于检索拼接的方式进行产出,效果相对呆板。而如今LLM带来的提升,已经可以很好解决这个问题,剩下的工作就是如何利用好LLM的能力,来进行个性化对话模型或者知识库工具的构建。
本文会对当前可用的方案进行总结对比,并给出一些案例效果作为参考。
一、提示补充
大语言模型一个主要的能力就是基于给出的上文信息进行结果生成。在输入时给模型提供问题的相关知识信息和限制要求,能够让模型更针对性的回答问题。
整体思路
- 将自有数据(文档、数据集、问答对)合理处理后,结构化保存
- 输入问题Q来到后,根据输入问题Q检索自有数据中相关相近的内容I
- 把输入问题Q与相关相近的内容I组合后,输入LLM,获得结果
适合场景
- 单轮问答咨询,如条规咨询、规范咨询
- 本地知识库,如chatPDF、chatDOC
优势
- 无需训练原LLM,训练成本低
- 自有数据易维护,方便随时增删
劣势
- 检索时的相关相似判断标准不同,效果影响大
- 输入长度受限,无法全面使用自有数据
一些应用案例
1、Chatglm-文档问答
文章作者基于chatGLM,对《中华人民共和国道路交通安全法》进行了分段和向量化,提问时会去数据集中使用simbertV2来找出top3相近的参考文档,同问题一起输入chatGLM。效果在常规问题上表现良好:
但在一些问题上,回答会变得不够严谨:
2、ChatGLM+langchain-本地化知识库检索与智能答案生成
langchain是用于开发基于语言模型的应用程序开发框架。总的来说,LangChain是一个链接面向用户程序和LLM之间的一个中间层。它能够较好的管理自有数据和各类LLM模型,近期的热门项目AutoGPT所使用的链式思考能力,都是由LangChain启发而来。 该文章作者使用LangChain对数据集进行管理,同时还引入网络搜索功能,增加了chatGLM可使用的参考数据,对网络热梗也能进行理解回答:
二、模型微调
微调(finetune)能够在大模型的基础上,针对自有数据专门进行再次训练,或在原有模型上调参,或生成lora类模型,得到新的特定场景大模型。相较提示补充的方式,这样得到的大模型,理论上学习到了更多自有数据。
整体思路
- 将自有数据进行数据处理,整理成适合大模型微调的训练数据
- 使用训练数据进行模型微调,调参验证,可引入RLHF等方法
- 选择合适的训练模型版本部署使用
适合场景
- 多轮对话模型,如智能客服、智能顾问
- 对话模仿,如数字孪生、数字”复活“
优势
- 模型可参考语料内容更充足
- 垂类多轮对话效果较好
劣势
- 需要算力支持及深度算法基础
- 对自有数据量有一定要求
- 通用领域可能下降
一些应用案例
1、ChatGLM-医疗问诊
该文章作者使用ChatGLM对医疗问诊数据进行了微调,曾使用Lora方式,也使用了官方提供的p-tuning v2方式,能够看到一定的效果表现如下:
同时,依然存在数据不足、模型调优问题,出现乱回答、忘记知识等情况。
2、Alpaca-Lora让英文模型讲中文
该文章作者使用翻译后的 Alpaca 数据集,来让Alpaca原模型获得中文解答能力。该任务目标相对难度低,模型表现良好:
bad case也存在,如写代码场景:
3、[ChatGLM-考研咨询问答]
该案例是我进行的一次尝试,数据集使用了朋友的考研咨询1V1问答场景的数据,该问答场景是比较规范的一问一答模式:
在使用ChatGLM-6b版本,选择官方的ptuing v2 训练max_steps=3000后得到了如下表现的模型:
在通用类问题上的表现尚可,但在具体导师咨询时,可能是由于数据较少、回答多样的原因,出现了回答效果较差的情况。
4、GPT-FINETUNE资费调研
除了对开源模型的本地finetune以外,其实openai也给出了GPT3的finetune方案。 该文章并未给出finetune后的模型效果,但分享了大致的资费消耗:
相对来说成本还是不低,同时目前openai也仅提供了GPT3的方案,暂未对个人用户提供GPT3.5的finetune方案。
三、一些总结
无论显式的依靠补充信息,还是隐式的进行微调训练、增强训练,都还有其局限性和难度存在。在选择方法时,需要对自有数据场景做好判断,选择合适的方法。
工作8年,最初做NLP,后又做了4年多计算广告,如今终于看到在LLM的发展下,NLP终于又有了落地应用的可能性,心里还是充满了激情的,过去的几年中,NLP相较CV图像领域,实在是表现低迷,缺乏场景。相信不久的将来,会有更多的LLM垂类场景出现亮眼的表现。
编辑于 2023-04-23 10:41・IP 属地北京