技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

技术报告:Efficient and Effective Text Encoding for Chinese LLaMA AND Alpaca

  • Introduction
  • Chinese LLaMA
  • Chinese Alpaca
  • Lora-Fine-tuning
  • 实验
    • 7B
      • pre- training
      • Instruction-Tuning
    • 13B
      • Pre-Training
      • Instruct-Tuning

Introduction

首先作者说了最近ChatGPT等模型在AGI领域表现出了很好的性能,但是收到算力、闭源的限制,阻碍了研究。

然后Meta与MIT分别开源了LLaMA、Alpaca,这让研究有了希望。

然后作者说这两个模型是基于英文预料训练的,词表中的中文只有几百个,中文性能不好,然后作者通过扩充词表等方法证明了LLaMA与Alpaca在其他语言可以有提高表现的可能性。

文章主要有以下贡献:

  1. 为LLaMA、Alpaca的原始词表拓展了中文词表用20000个token。
  2. 用Lora减少了算力消耗。
  3. 验证 LLaMA、Alpaca在中文上面的表现。
  4. 开源了研究与资源。

Chinese LLaMA

LLaMA是一个在1.4T左右token上预训练的模型,但是它的中文能力一塌糊涂(虽然llama支持回退中文字符,但是字节码不能很好的表示中文),为了解决这个问题,作者做了如下改进:

  1. 为了增强tokenizer使它增强Chinese text,作者用Sentence Piece训练了一个新的中文tokenizer,与原始的词表合并。
  2. 修改embedding去适配新的词表,新的向量为了不影响以前的token,添加在了以前的embedding matrices末尾。

初步实验展示,在表达更清楚的同时,所需要的token长度几乎少了一倍。
在这里插入图片描述

Chinese Alpaca

得到Chinese LLaMA后,采取指令微调的形式去获得Chinese Alpaca,其中属于格式如下:
在这里插入图片描述
与原始模型的不同是没有input(我觉得这样更符合中国方式的问答),如果下游数据input中含有数据,通过 \n合并instruction与input,其中\n被视为一个额外的 padding token

Lora-Fine-tuning

这个阶段与以前并无二致,在LLaMA到Chinese-LLaMA,Alpaca到Chinese Alpaca阶段都是使用的这个技术。

实验

7B

pre- training

阶段1:我们在模型中固定transformer编码器的参数,并仅训练
Embedding,在最小化干扰的同时调整新添加的中文词向量
到原始模型。
阶段2:将LoRA权重(适配器)添加到注意力机制中,并训练ebeddings、LM头和新添加的LoRA参数。

Instruction-Tuning

指令微调在获得预训练模型后,我们还使用LoRA进行高效的微调,增加了可训练参数的数量 。
通过向MLP层添加LoRA适配器。我们使用大约2M数据点,并爬取了SFT数据以调整7B模型。

13B

Pre-Training

预训练13B模型的预训练过程与7B的基本相同模型,除了我们在预训练中跳过阶段1。我们直接把LoRA应用到 训练的注意事项和mlp,同时将嵌入和LM头设置为可训练的。

Instruct-Tuning

指令微调LoRA设置和可训练参数保持不变,训练的阶段。我们为13B模型使用额外的1M爬取的自指导数据点微调,导致13B模型的总数据大小为3M。

超参数:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/23076.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于ChatGPT,已到了不得不说的危难时刻

文 / 高扬(微信公众号:量子论) 今天在Hacker News上看到了一篇热文,对应着的是热烈争论。 马斯克等科技人士签署公开信,呼吁人工智能实验室立即暂停训练比GPT-4更强大的人工智能系统至少6个月。 该公开信发布于生命未来…

和文心一言聊一聊隐私计算,对比ChatGPT!

开放隐私计算 最近文心一言正式发布,标志着国产对话机器人的问世,大语言模型在国内正式落地。相信我们很多人想到的第一件事不仅仅是文心一言,而是拿它和ChatGPT对比。珠玉在前,文心一言背着巨大压力走到我们面前,给我…

NLP实践!文本语法纠错模型实战,搭建你的贴身语法修改小助手 ⛵

💡 作者:韩信子ShowMeAI 📘 深度学习实战系列:https://www.showmeai.tech/tutorials/42 📘 自然语言处理实战系列:https://www.showmeai.tech/tutorials/45 📘 本文地址:https://sho…

阿里 P10 级大佬吴翰清离职,下一步或将开启 AI 短视频创业

作者 | 苏宓 出品 | CSDN(ID:CSDNnews) 5 月 25 日,据 Tech 星球报道,阿里巴巴集团研究员吴翰清已从阿里离职,接下来其将深度拥抱 AI 新时代,投身于 AI 短视频赛道创业。 这位被阿里程序员誉为大…

智能文本生成:进展与挑战

智能文本生成:进展与挑战 万小军 北京大学王选计算机研究所 摘要:智能文本生成是人工智能与自然语言处理领域的前沿研究方向,也是AI生成内容(AIGC)的关键技术支撑,近些年受到学术界和产业界的高度关注&…

2023.3.20-3.26 AI行业周刊(第142期):AI创业过程中的思考和实践

最近一段时间,因为开始接触更多的市场用户,包括和一些AI公司的创始团队沟通,越来越感觉创业的不容易。 因为需要考虑的因素太多,市场分析后产品的定位,产品打磨出来后用户的推广,用户使用后商业化的落地等…

【热点抢先看】智能文本生成:进展与挑战

智能文本生成:进展与挑战 万小军 北京大学王选计算机研究所 摘要:智能文本生成是人工智能与自然语言处理领域的前沿研究方向,也是AI生成内容(AIGC)的关键技术支撑,近些年受到学术界和产业界的高度关注&…

吴恩达与OpenAI官方合作的ChatGPT提示工程课程笔记

吴恩达与OpenAI官方合作的ChatGPT提示工程课程笔记 🥸 下述代码均在煮皮特上运行喔 LLMs(large language models) Base LLM:基于文本训练数据来预测做“文字接龙” Instruction Tuned LLM(指令调整型LLM):接受了遵循指示的培训&am…

会议学习笔记

目录 1.标注高效的核心思路:1.部分监督PSL2.自监督SSL魔方复原 3.单一标注无标注 2.深度通用学习DUL1.通用特征点检测2.通用MRI重建 3.学习与知识融合 如何把大数据小任务转换成小数据大任务 1.标注高效的核心思路: 以一变二:数据增广无中生…

【Android知识笔记】Parcelable 为什么速度优于 Serializable ?

Q:Parcelable 为什么速度优于 Serializable ? 首先,抛开应用场景谈技术方案都是在耍流氓,所以如果你遇到有面试官问这样的题目本身就是在给面试者挖坑。 序列化 将实例的状态转换为可以存储或传输的形式的过程。 Serializable 实现方式: Serializable 是属于 Java 自带的…

计算机IO模型二、pageCache、mmap作用

前言 文章开始前先推荐两本书,《深入理解linux内核》可以帮助大家对内核有一个系统的理解,《深入理解计算机系统》可以夯实对操作系统的了解 1. 物理内存: 物理内存中有内核,有应用程序,程序在物理内存中是不连续的。…

一个JavaSript信息提示框的实现

在很多时候我们需要在一个Html控件获得光标的时候在控件旁边显示一个提示框,实现这个关键在于怎么定位当前控件的位置。这个位置可以是相对于浏览器左上角窗口的x,y坐标,也可以是相对于Body的X,Y坐标。相对于第一种方法,第二种方法实现起来会方便些,因为要获得相对于浏览器…

ospf协议

一、路由协议基础: 1. 静态路由协议缺点: 1)路由不能随着拓扑的变化而自动变化(网络中接口关闭或者故障是不可知的,有无汇总都会有黑洞的——接口故障关闭断电或者网段不存在之后,此时如果有缺省就会出现…

D3D12渲染技术之顶点着色器

相信大家以前用过D3D9的或是编写过Shader的对顶点着色器都比较了解,现在我们回顾一下: cbuffer cbPerObject : register(b0) {float4x4 gWorldViewProj; };void VS(float3 iPosL : POSITION, float4 iColor : COLOR, out float4 oPosH : SV_POSITION,o…

chatgpt赋能python:Python编程教程之抽签程序

Python编程教程之抽签程序 介绍 对于喜欢玩抽签、体育彩票等游戏的人来说,抽签程序是一款非常有用的小工具。抽签程序可以用来随机抽取一定数量的幸运儿,而且运行速度快,结果随机性高,不需要人工干预。 那么,Python…

《大众证券报》报道云创大数据等企业谋取新春“开门红”

近日,《大众证券报》以《拼研发、抓项目、拓市场 南京上市公司谋取新春“开门红”》为题发表新闻报道,描绘包括南京云创大数据科技股份有限公司等南京本地上市公司在新春伊始的生机活力景象,报道这些企业是如何围绕主业谋发展,力争…

游戏版《西部世界》来了!NPC全由AI操控,行动自如有理想和记忆,基于最新GAEA技术系统打造

​ChatGPT彻底引爆了AI领域,也点燃了各赛道玩家的热情。 以虚拟交互体验为例,就已经有不少新产品冒头。 不仅像Chat D-ID这类以ChatGPT驱动的虚拟女友bot花样百出,就连游戏AI NPC也变得火热起来,这几天知名游戏公司育碧要推出AI…

游戏版《西部世界》来了!NPC全由AI操控,行动自如有理想和记忆,基于最新GAEA技术系统打造...

萧箫 发自 凹非寺量子位 | 公众号 QbitAI ChatGPT彻底引爆了AI领域,也点燃了各赛道玩家的热情。 以虚拟交互体验为例,就已经有不少新产品冒头。 不仅像Chat D-ID这类以ChatGPT驱动的虚拟女友bot花样百出,就连游戏AI NPC也变得火热起来&#x…

无人出租车被警察截停后逃逸!AI:我当时害怕极了

新智元报道 编辑:好困 袁榭 snailnj 【新智元导读】愚人节当晚,在美国旧金山上演了史上第一场无人驾驶汽车被警察截停后逃逸的事件,画面爆笑。 警察拦车很常见,但是拦AI开的出租车你见过么? 在最近爆火的一段视频中&…

H5营销海报如何制作,在线制作平台分享

互联网影响着我们的生活习惯,很多人获取消息不再是从别人口中听到、从电视上看到、从报纸上阅读到,但一切消息皆可以从互联网上来获取。而商家们也可以通过互联网进行高效、精准的宣传,方式很简单。通过H5海报制作,巧妙的利用互联…