大模型 LLM 综述, A Survey of Large Language Models

大模型 LLM 综述, A Survey of Large Language Models

一、概述

一般认为NLP领域的大模型>=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力);
经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等;

大模型时间线, 图来自A Survey of Large Language Models,下同。
在这里插入图片描述

二、大模型,新能力

2.1 涌现

涌现, emerge(abilities), 即一般指在大模型中出现而小模型没有的能力。
一般包括上下文学习(ICL)、指令微调(IFT)、思维链(CoT)等。

2.2 指令微调(IFT)

指令微调一般可以分为两类,一种是从已知学术界等数据集构建;另外一种是构建更接近人类的,如大模型收集与手工标注。
一般认为,指令微调是通过自然语言形式给出人类指令,可以提高在未知任务上的效果(zero-shot learning)。
在这里插入图片描述

2.3 上下文学习(ICL)与思维链(CoT)

上下文学习(ICL)是指不需要微调,只需要少数几个样例作为示例,就能在未知任务上取得不错的效果(提升few-shot能力)。
思维链(CoT)是指在生成回答前,先生成中间过程(思维链),这么做会提升效果,特别是推理生成任务(尤其是数学问题)。
在这里插入图片描述

三、大模型,架构

3.1 大模型LLM基本情况(2020-2022)

大模型热潮主要时间是在2021-2022这两年,模型参数50-200B的居多,预训练Tokens在300B-1T(1-5TB corpus),GPU需要100-2000个(如A100),训练时间为1-2个月。
在这里插入图片描述

3.2 大模型LLM架构-1

大模型架构主要有Decode-Only(Causal)、Pre-LN、RoPE、GeGLU、Bais等,
L、H在100左右、d_model在1w左右、Seq大都为2048等,比较宽的模型。
在这里插入图片描述

3.3 大模型LLM架构-2

大模型LLM架构-2,其中层归一化位置有Post-LN(泛化性更好)、Pre-LN(训练更稳定)、Sandwich-LN(稳定+泛化的结合)。
层归一化方法有LayerNorm(标准LN)、RMSNorm(剔除bais减少参数与计算量)、DeepNorm(层数衰减可构建1k层)。
激活函数有Relu(梯度不会消失、阈值化计算简单)、GELU(处理负数、门控机制非线性处理大数/接近0的数、引入随即正则)、Swish、SwiGLU、GeGLU。
位置编码有Abs(绝对编码, 可训练)、Rel(相对, 展开魔改)、RoPE(相对, 引入复数)、Alibi(操控Attention、复杂)等。
在这里插入图片描述

3.4 大模型LLM参数配置

大模型LLM的参数配置,批尺寸batch-size从32k-3.2M,学习率lr一般为10^-5级别(衰减consine decay by 10%),优化器opt一般为AdamW/Anam(warmup),
数据类型一般为FP16(或者BF16),梯度裁剪大都为1.0,Dropout大都为0.1。
在这里插入图片描述

四、大模型,数据

4.1 一些大模型预训练语料构成

一般认为,高质量预训练语料对大模型有益,所以数据清洗就很重要。来自维基百科、代码code、论文paper、书籍book、网页web等的数据。
在这里插入图片描述

五、大模型RLHF

5.1 训练大模型的方法, RLHF全流程

有监督微调(SFT) --> 奖励模型训练(RMT) --> 强化学习(对齐,基于RM、PPO)
在这里插入图片描述

参考

  • A Survey of Large Language Models
  • ChatGPT的前世今生
  • 2022年NLP突破进展
  • RWKV-LM
  • ChatRWKV
  • PromptCLUE
  • ChatYuan
  • ChatGPT内核:InstructGPT,基于反馈指令的PPO强化学习
  • ChatGPT评测观察之对话能力

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25464.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT王炸更新!可以直接编译运行代码了!

OpenAI正式宣布:ChatGPT新增插件功能 借助插件功能可以使ChatGPT具备更多的能力: - 获取实时信息 - 检索自己的知识库数据 - 代替自己执行操作 目前官方首批开放使用的插件所支持的功能就有:酒店预订、航班预订、外卖服务、在线购物、法律知识…

ModaHub魔搭社区:AI原生云向量数据库Zilliz Cloud与 LlamaIndex 集成搭建文档问答系统

目录 准备工作 准备数据 主要参数 处理数据 开始提问 本文将演示如何与集成 LlamaIndex 从指定源获取信息。 在 ChatGPT 占领各大头条时,越来越多的企业在考虑如何在它们的产品中使用 ChatGPT。一个比较大的使用场景就是如何使用 ChatGPT 来改造产品文档孱弱的搜索能力。…

问了ChatGPT一个事务问题,然后被忽悠了

Hello 大家好, 这里是Anyin。 给大家说一个笑话:我被ChatGPT忽悠了。 引言 前两天在编码的时候遇到一个事务未生效的问题,当时感觉比较诡异。因为我一个方法注解了Transactional注解,但是事务未生效,而且这个方法是…

ChatGPT再闯大祸!OpenAI迎来首起AI诽谤起诉!

自ChatGPT问世以来,强大的理解力与信息总结能力便使得其快速成为了各行业从业者的得力助手,无论是程序员、作家、学生还是记者都能够依靠ChatGPT的帮助来提升实际的工作效率。 然而在硬币的另一面,幻觉问题却也始终困扰着这款诞生并不太久的…

让客户在微信上查看订单详情,【单据分享】让你省心又省力!

做生意的老板们可能经常会遇到这样的问题:客户打电话或者在微信上面下单订货后,需要把销售单打印出来给客户核对有无错漏。 我们常见的做法有两种: ①把销售单打印出来之后手机拍照发给客户核对。但这种方式有明显的弊端:如果照…

印度500万程序员饭碗不保?解雇90%技术支持团队后,印度CEO盛赞AI“干活又快又便宜”

来源 | AI前线 ID | aifront 整理 | 凌敏、核子可乐 AI 技术引发的失业潮来了? 印度 CEO 开始将工作外包给 AI 近日,一家印度初创软件开发商因难以负担客户支持团队的费用,决定将这项工作外包给 AI 聊天机器人,并表示这项决…

互联网晚报 | 周杰伦起诉网易不正当竞争案庭审结束;特斯拉中国工厂普通工人月薪1万块;SpaceX“星舰”发射计划推迟...

周杰伦起诉《天下3》不正当竞争案4月17日开庭 4月17日,杰威尔与网易旗下游戏《天下3》诉讼案在杭州市滨江区法院开庭审理。杭州市滨江区法院公布,在庭审中杰威尔方面称《天下3》免费赠送玩家周杰伦新专辑活动因未获官方正式授权,属于侵权及不…

“因使用 GitHub ,我们被取消了参赛资格”

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 说到 GitHub,相信每一个程序员都再熟悉不过。 作为全球最大的开发者社区,如今 GitHub 拥有 9400 万开发者,在开源热潮的席卷下,每年 GitHub 用户数仍在…

字节技术大牛跑步进入AIGC创业,聚焦视觉领域,搭建算法平台,还是多模态的那种...

衡宇 发自 凹非寺量子位 | 公众号 QbitAI 3月最后一天,王长虎在龙湖集团的last day。 这位字节跳动前视觉技术负责人、AI Lab总监辞职挂印,火速启程下一站:AIGC创业,成立新公司爱诗科技。 他拉团队自起炉灶,要打造一个…

华人高管加入OpenAI;富士通发布AI平台;成都为鼓励AI产业发展提出19项资金扶持措施丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 三六零参与编写中国大模型应用标准 6月1日,从公司处获悉,三六零将参与编写中国大模型应用标准,公司日前被授予《大规模预训练模型技术和应用评估方法第四部分:模型…

阿里巴巴集团告别 CTO?

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 近日,据雪豹财经社、界面新闻等多个媒体报道,阿里内部开始了新一轮的组织架构调整,其中原先 CTO 线中的业务中台、供应链中台等核心团队并入 CDC(国内数字…

37岁程序员失业后摆摊卖饼,月入上万!网友:“再也不用解决 Bug 了”

整理 | 朱珂欣 出品 | CSDN程序人生(ID:coder_life) 失业不可怕,关键是思路打开重新赚钱养家! 近日,有网友发现,37 岁的程序员杨先生在失业之后,选择靠做小摊美食鲜肉饼重启他的职…

基于JAVA解决淘宝爬虫限制

不仅仅限于java 前言验证码识别工具分析编码 数据演示后记 前言 以前做过淘客开发,那时候高佣api很少,高佣的办法就是查询商品模拟转链为高佣,但是后来淘宝慢慢禁止了爬虫一直弹验证码,后来我就利用验证码识别成功扛过那段日子&a…

爬虫基本原理介绍、实现以及问题解决

文章目录 一、爬虫的意义1.前言2.爬虫能做什么3.爬虫有什么意义 二、爬虫的实现1.爬虫的基础原理2.api的获取3.爬虫实现 三、反爬解决方案1.反爬的实现方式2.反爬的解决方法3.反爬的实现代码4.IPIDEA还能做什么 四、总结 一、爬虫的意义 1.前言 最近拉开了毕业季的序幕&#…

图文并茂|AIGC的浪潮下,文本生成发展得怎么样了?

来自:机器之心和澜舟科技 1 月 12 日,在机器之心 AI 科技年会 AIGC 技术应用论坛上,澜舟科技创始人兼 CEO、中国计算机学会 CCF 副理事长、创新工场首席科学家周明发表了主题演讲《文本生成研究进展》。 进NLP群—>加入NLP交流群 以下为演…

prophet

用好小模型!这里提出了名为 Prophet 的框架,通过在 LLM 上游引入一个可学习的、任务相关的视觉问答小模型,来更好地激发大模型的潜力。 用小模型启发大语言模型解决外部知识图像问答 大规模语言模型(Large Language Model&#x…

通过LLM构建聊天机器人必备技巧

聊天机器人在AI领域并不稀奇,尤其是ChatGPT问世之后,很多人都把它当成一个可以随时对话随意提问的聊天机器人。而在实际应用领域,聊天机器人的场景也愈加丰富多样。 比如很多人熟知的客服聊天机器人,常用在电商领域,能…

基于PHP的招聘网站

摘要 在Internet高速发展的今天,我们生活的各个领域都涉及到计算机的应用,其中包括在线招聘的网络应用,在外国在线招聘已经是很普遍的方式,不过国内的在线招聘可能还处于起步阶段。招聘网站具有招聘信息功能的双向选择&#xff0c…

丘仕达:SEO资料站管理团队成员招募

管理团队终于要成立了,我以为我会很兴奋或激动,奇怪的是我没有. 一直都想组团队,但我自己走了很多弯路,一直都在问自己:你能给团队成员什么利益?你能保证团队成员之间利益分配合理不冲突吗? 答案是不能.所以我一直在犹豫,给了自己一个理由:多观察下,给多点时间彼此来磨合.磨到…

如何招聘一个外贸SEO推广人员以及如何做后期的KPI考核

随着国内SEO行业的日渐成熟,越来越多的外贸公司,开始招聘专门的SEO人员,如果你去招聘网站上搜“外贸SEO”,会发现很多这样的公司。 总的来说,SEO的薪资水平还是不低的,深圳外贸行业SEO人员的平均月薪在8K以…