[大模型] LLaMA系列大模型调研与整理-llama/alpaca/lora(部分)

文章目录

  • LLaMA大模型及其衍生模型
    • 1. LLaMA
    • 2. stanford_alpaca
    • 3. ChatDoctor
    • 4. alpaca-lora
    • 5. Chinese-LLaMA-Alpaca
    • 6. BELLE
  • 大模型综述 A Survey of Large Language Models

关键词:大模型,LLaMA,Alpaca,Lora,Belle,模型训练,模型微调,指令微调

最近尝试在领域数据进行生成式大模型的再训练和微调,在调研和实验中整理了一些项目&论文的基本信息,后续会持续完善和补充。

LLaMA大模型及其衍生模型

1. LLaMA

项目地址: https://github.com/facebookresearch/llama

LLaMa语料数据如下,对各类语料又做了「去重、筛选」等,每种数据的处理方式有差别,具体见论文。语料中不包含中文数据。
image2023-4-4_14-38-11.png
模型参数:1.4T tokens, 2 epochs, 训练耗时65B模型: 2048 * 80G A100 * 21day,其他参数见下表:
image2023-4-4_14-42-54.png

相对于之前的大模型,LLaMa做了三点改进:

  • GPT3在每层transformer之后做正则化,调整为在每层transformer之前做正则化,正则化采用RMSNorm;
  • 相比PaLM,在激活函数上,使用SwiGLU替换ReLU非线性激活函数;
  • 相比GPTNeo,在位置编码上,使用RoPE替代绝对位置编码;

LLaMA相对其他大模型在零样本常识推理任务上的性能对比:
image2023-4-4_15-19-3.png
结论:在其他零样本、小样本任务上与各大模型进行性能对比,结果显示,LLaMA-13B在大多数任务上能够赶上GPT3,但模型大小不足GPT3的十分之一。LLaMA-65B与Chinchilla-70B/PaLM-540B在多个任务也具有一定的竞争力。

更重要的是LLaMA是chatGPT之后首个被广泛用作底座模型的开源大模型,为后续基于llama的衍生模型做出了极大的贡献
image2023-4-4_15-27-36.png

2. stanford_alpaca

项目地址:https://github.com/tatsu-lab/stanford_alpaca

以llama做为底座模型,引入新的数据进行指令微调ISF,新数据采用self-instruct的方式有Text-davinci-003进行生成,得到52k新数据进行微调训练。

本项目的贡献在于,提供了用于指令微调的数据生成方式,同时证明了ISF后模型效果的提升,其之后的很多项目均是基于这个思路。
image2023-4-12_11-42-27.png

3. ChatDoctor

本项目可以看着是standford-aplaca方法在医疗领域的衍生,其借助chatGPT对结构化知识库生成ISF数据集的方法在后续项目的多被借鉴。

项目地址: https://github.com/Kent0n-Li/ChatDoctor
基础模型:llama-7b
指令样本构造:Standford Alpaca 52k数据,700类疾病知识库借助ChatGPT生成的5k数据
指令样本量:52k + 5k
任务评测:对比ChatGPT在医学内容上进行提问,评估内容输出的准确性,ChatGPT 87%,ChatDocter 91%
模型发布:ChatDocktor,模型在stanford alpaca的基础上进行再训练
image2023-4-12_14-23-7.png

4. alpaca-lora

项目地址: https://github.com/tloen/alpaca-lora

Alpaca-Lora (羊驼-Lora),在stanford-alpaca的基础上,使用 Lora (Low-rank Adaptation) 技术对模型进行指令微调,相当于是对模型进行轻量化训练,使得对显存的占用和训练时长都大幅度降低。在大模型训练高资源高成本的情况下,使用lora技术,牺牲少部分性能却使得大模型训练变得可行,在之后的项目中被广泛用到。

LoRa结构:在模型的Linear层的旁边,增加一个「旁支」,训练更新旁支参数替代模型参数。
image2023-4-12_15-29-14.png

5. Chinese-LLaMA-Alpaca

项目地址: https://github.com/ymcui/Chinese-LLaMA-Alpaca

该项目值得被重点推荐和学习,ymcui在Bert时代Chinese-BERT-wwm亦是杰出之作。

该项目在LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,同时中文Alpaca模型进一步使用了中文指令数据进行精调。保姆级说明文档及量化版本可轻松部署本地PC。

预训练数据:通用中文语料(bert-wwm,macbert,lert,pert等语料)13.6M行

指令微调样本数据:200w数据,中英文翻译500k + pCLUE 300k + Alpaca 100k(中/英)

6. BELLE

项目地址:https://github.com/LianjiaTech/BELLE
基础模型:bloom-7b, llama-7b
指令样本构造:Standford Alpaca方法,chatGPT self-instruct
指令样本量:20万、60万、100万和200万样本
任务评测:在Extract, Classification, Closed QA, 和Summarization任务上,增加数据能持续带来效果的提升,还未达到瓶颈。在Translation, Rewrite, 和Brainstorming任务上,几十万的数据量就能获得较好的效果。在Math, Code, 和COT任务上,模型效果较差,而且增加数据量已经无法带来效果的提升。 https://github.com/ZrrSkywalker/LLaMA-Adapter
模型发布:BLOOMZ-7B1-xx,LLAMA-7B-xx,xx表示不同的指令样本量

大模型综述 A Survey of Large Language Models

论文地址:A Survey of Large Language Models

4月份发表在arXiv上的大模型综述,包括了大模型的发展历程、各大模型的关键参数、训练语料的处理方法及数据类型,以及大模型训练的流程等,对于全面了解认识大模型很有帮助。

  • 大模型发展历程:
    大模型综述
    - 各大模型关键信息
    大模型综述

  • LLM语料从内容类型上可以分为六大类:Books, CommonCrawl, Reddit links, Wikipedia, Code, and others.
    大模型语料类型

语料数据包括了通用数据和专业数据,通用数据的多样性能提高模型的泛化性和语言理解能力,专业数据能够赋予LLM特定的任务解决能力。
不同大模型数据类型是使用占比

高质量数据可能在很大程度上影响LLM的性能,因此需要对原始语料进行过滤,包括去除有噪声、冗余、不相关和潜在毒性的数据。

LLM训练前的数据处理流程:
大模型训练流程

---------END--------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/50904.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

国内优秀的开源低代码框架:PagePlug,面向研发使用,拒绝重复、低价值的工单循环开发

分享下Appsmith中文版的PagePlug吧,面向研发人员使用的低代码: PagePlug将开发人员的开发时间减少了 60%,PP框架本身解决了很多没必要的繁重工作。 前者appsmith目前是github上超27K最火的开源低代码平台,后者PagePlug也是目前国内…

使用cookie保存用户的登录状态——初步实现

保存用户的登录状态是许多网站都会使用,一般会使用session、数据库或者cookie和session相结合的办法,这里我们了解 cookie的方法来保存用户登录状态. Cookie 是在 HTTP 协议下,服务器或脚本可以维护客户工作站上信息的一种方式。Cookie 是由 Web 服务器保存在用户浏…

解决Ubuntu的root账号无法登录SSH问题-Permission denied, please try again.

有时,我们登录SSH的时候,会出现如下问题: 此时,是因为系统默认禁止root用户登录ssh,此时我们可以这样解决: 首先,CtrlC退出密码输入界面: 然后输入:su - tips&#xff1a…

chatgpt赋能Python-pythonwxpy

Python的wxpy模块:一款强大的微信机器人框架 在当今数字时代,微信已经成为了大家日常生活中不可缺少的应用。wxpy是一款使用Python语言的微信机器人框架,可以帮助用户实现诸如自动回复、消息提醒、定时发送消息等自动化操作。它的易用性、强…

马云获聘港大荣誉教授/ 马斯克回应星舰发射架损坏/ 谷歌Bard更新...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 大家好,今天是4月23日星期日,调休的周末心情belike: 今天科技圈有哪些新鲜事儿,和日报君一起来看看~ 星舰发射架损坏,马斯克回应 据华盛顿邮报报道,SpaceX发射星…

巴比特 | 元宇宙每日必读:游戏是AIGC应用的首选场景?游戏厂商如何利用AIGC提升产能?...

摘要:据手游矩阵报道,作为科技含量最高的创作领域,游戏行业对AI的利用根本无需等到ChatGPT这样的风口,而是早就已经在跑步入场了。国内厂商更多是将AI定位为效率工具,而非炒作手段。游戏厂商无论大小,只要手…

企划案与GPT4ALL

企划案与GPT4ALL 近日,需要写一份服装店的企划方案 疫情已经彻底过去,告别三年来的经营上面的负面因素。各行各业也正在如火如荼地争取最快的速度恢复生意。因为我所经营的服装店近来需要做一个2024年的企划方案,所以在最近GPT4ALL很火的情…

五月到了,再来看看ChatGPT给我们带来了什么吧!

ChatGPT,即聊天生成预训练转换器(Chat Generative Pre-trained Transformer),是美国OpenAI公司基于GPT-3.5架构(目前已经更新到GPT-4,但仅限于Plus用户)研发和强化训练的一款人工智能聊天机器人…

招聘网站数据分析岗位数据分析(Excel实现)

数据分析案例 明确分析的目的数据处理原始数据数据清洗选择子集重复数据处理 缺失数据处理数据转化数据提取-字段分割异常值处理 数据分析1.需求在哪里?2.需要什么样的人才?3.什么阶段需求最旺? 结论 明确分析的目的 • Where——需求在哪里…

某招聘网站“数据分析”相关岗位招聘信息爬取并分析

确定目标 简单分析数据分析相关岗位的薪酬状况及技能要求;尝试数据分析从数据获取到数据分析报告撰写的整个数据分析流程,学习爬虫、数据清洗、数据分析相关技巧。 数据获取 获取的岗位数据来源于某招聘网站,采取爬虫的方式获取,岗位搜索…

OGG-01028分析处理

1.现象 ogg的安装目录使用率达到100%,果断时间会释放短时间又会达到使用率100%。 2.分析 2.1 如果是队列文件问题不应该自己释放短时间又达到100%,查看到底是哪个目录导致。 du -sm /home/oracle/oggsource/*|sort -n 83 replicat 277 dir…

医药行业数据分析软件(含非付费)--对比分析

目前主要使用的医药数据软件分为两大类,一个是免费医药数据软件,一个是商业综合类的医药数据软件。医药数据软件的本质是让用户能在最短时间内在一个网站把想要的信息通过检索一览无余,因此,全面性、准确性、及时性是该类数据库的…

医药行业的销售数据如何分析?

本文转自公众号叨叨侠爱叨叨 ▌一、医药行业的体系 医疗属于大健康行业,大健康(Healthcare Industry)行业一般是指经济体系中向患者提供预防、治疗、康复等服务部门的总和,更接近于我国的医疗卫生服务业。 按照国际行业分类标准来…

医药产品经理ims数据分析

如果说某个药品的销售额在对比去年同月下降40%,而你身为该药品的产品经理是否能快速找出其原因?这是医药产品经理、医药市场bd对于数据异动分析的考题,侧面反映了医药行业数据分析对于医药产品经理这个职位的重要性。 说到医药行业数据分析先…

数据分析案例-大数据相关招聘岗位可视化分析

🤵‍♂️ 个人主页:艾派森的个人主页 ✍🏻作者简介:Python学习者 🐋 希望大家多多支持,我们一起进步!😄 如果文章对你有帮助的话, 欢迎评论 💬点赞&#x1f4…

医药销售数据分析

阅读原文 一、数据源 来自某医药公司的产品销售数据,时间为 3 月到 5 月,共 48 个 Excel 表格。包含订单信息、售后信息、用户信息以及对应销售人员信息等。 加载合并后得到的原始数据如下: 二、数据清洗 清洗流程以及对应细节 加载数据源 …

【Python数据分析】——药品销售数据分析(完整项目实战)

一、前言 这篇文章找来了有关药品销售数据进行案例分析练习,利用适当的统计方法对相关数据进行月均消费次数、月均消费金额、客单价和消费趋势等几个业务指标进行分析。 分析过程为:数据获取、数据清洗、建模分析、可视化 二、数据获取 (…

奇瑞汽车回应要求员工周六上班:本意不是压榨员工;Google发布史上最大通才模型PaLM-E;Chrome 111发布|极客头条

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&…

ChatGPT和知识图谱视频笔记

目录 Prompt tuing Instruction-tuning 知识图谱 prompting tuning未对模型参数进行更新, Fine tuning和Instruction tuning都对模型参数进行了更新 Prompt tuing prompt简单理解就是提问的问题 Instruction-tuning 知识图谱

新浪股票接口获取历史数据

这两天做了一个调用新浪股票接口获取实时以及历史股票数据的应用,因为新浪没有公开关于其接口的官方文档,所以通过各种百度差了很多关于新浪股票接口的使用,不过大家基本都是转载或者直接复制,对于实时数据的获取讲的很详细&#…