大语言模型(LLM)发展历程及模型相关信息汇总(2023-07-12更新)

大语言模型(large language model,LLM)发展历程及模型相关信息汇总(2023-07-12更新

在这里插入图片描述
LLM发展时间轴:以下用表格形式汇总了从 BERT(2018-10-11)到 Baichuan(203-06-15)共计 58种语言大模型的相关信息:主要从 模型名称,发布时间,模型参数,发布机构,github/官网,发表论文7个维度进行统计。

排序模型名称发布时间模型参数发布机构GitHub/官网论文
57Baichuan-7B2023-06-1570亿百川智能github.com/baichuan-inc
56Aquila-7B2023-06-1070亿BAAIgithub.com/FlagAI-Open/
55Falcon2023-05-24400亿Technology Innovation Institutefalconllm.tii.ae/
54Guanaco2023-05-2370亿~650亿University of Washingtongithub.com/artidoro/qloQLORA: Efficient Finetuning of Quantized LLMs
53RWKV2023-05-2270亿RWKV Foundationgithub.com/BlinkDL/RWKVRWKV: Reinventing RNNs for the Transformer Era
52CodeT5+2023-05-13160亿Salesforcegithub.com/salesforce/CCodeT5+: Open Code Large Language Models for Code Understanding and Generation
51PaLM22023-05-1010亿~100亿Googleai.google/static/documePaLM 2 Technical Report
50RedPajamaINCITE2023-05-0528亿TOGETHERhuggingface.co/togetherReleasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models
49MPT2023-05-0570亿MosaicMLgithub.com/mosaicml/llmIntroducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
48StarCoder2023-05-0570亿Hugging Facegithub.com/bigcode-projStar Coder: May the Source be With You!
47OpenLLaMa2023-05-0370亿Berkeley Artificial Intelligence Researchgithub.com/openlm-reseaOpenLLaMA: An Open Reproduction of LLaMA
46StableLM2023-04-2030亿&70亿Stability AIstability.ai/blog/stabiStability AI Launches the First of its StableLM Suite of Language Models
44Koala2023-04-03130亿Berkeley Artificial Intelligence Researchgithub.com/young-geng/EKoala: A Dialogue Model for Academic Research
43Vicuna-13B2023-03-31130亿LM-SYSgithub.com/lm-sys/FastCVicuna: An Open-Source Chatbot Impressing GPT-4 with 90% ChatGPT Quality
42BloombergGPT2023-03-30500亿Bloombergbloomberg.com/company/pBloombergGPT: A Large Language Model for Finance
41GPT4All2023-03-2970亿Nomic AIgithub.com/nomic-ai/gptGPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo
40Dolly2023-03-2460亿Databrickshuggingface.co/databricHello Dolly: Democratizing the magic of ChatGPT with open models
39ChatGLM-6B2023-03-1462亿清华大学github.com/THUDM/ChatGLChatGLM-6B: An Open Bilingual Dialogue Language Model
38GPT-42023-03-14未知OpenAIcdn.openai.com/papers/gGPT-4 Technical Report
37StanfordAlpaca2023-03-1370亿Stanfordgithub.com/tatsu-lab/stAlpaca: A Strong, Replicable Instruction-Following Model
36LLaMA2023-02-2470亿~650亿Metagithub.com/facebookreseLLaMA: Open and Efficient Foundation Language Models
35GPT-3.52022-11-301750亿OpenAIplatform.openai.com/docGPT-3.5 Model
34BLOOM2022-11-091760亿BigSciencehuggingface.co/bigscienBLOOM: A 176B-Parameter Open-Access Multilingual Language Model
33BLOOMZ2022-11-031760亿BigSciencegithub.com/bigscience-wCrosslingual Generalization through Multitask Finetuning
32mT02022-11-03130亿BigSciencegithub.com/bigscience-wCrosslingual Generalization through Multitask Finetuning
31Flan-U-PaLM2022-10-205400亿Googlegithub.com/google-reseaScaling Instruction-Finetuned Language Models
30Flan-T52022-10-20110亿Googlegithub.com/google-reseaScaling Instruction-Finetuned Language Models
29WeLM2022-09-21100亿微信welm.weixin.qq.com/docsWeLM: A Well-Read Pre-trained Language Model for Chinese
28PLUG2022-09-01270亿阿里达摩院github.com/alibaba/AlicPLUG: Pre-training for Language Understanding and Generation
27OPT2022-05-021750亿Metagithub.com/facebookreseOPT: Open Pre-trained Transformer Language Models
26PaLM2022-04-055400亿Googlegithub.com/lucidrains/PPaLM: Scaling Language Modeling with Pathways
25Chinchilla2022-03-29700亿Google DeepMinddeepmind.com/blog/an-emTraining Compute-Optimal Large Language Models
24CodeGen2022-03-25160亿Salesforcegithub.com/salesforce/cCodeGen: An Open Large Language Model for Code with Multi-Turn Program Synthesis
23GLM-130B2022-03-171300亿清华大学github.com/THUDM/GLM-13GLM: General Language Model Pretraining with Autoregressive Blank Infilling
22InstructGPT2022-03-041750亿OpenAIgithub.com/openai/folloTraining Language Models to Follow Instructions with Human Feedback
21AlphaCode2022-02-08410亿Google DeepMinddeepmind.com/blog/compeCompetition-Level Code Generation with AlphaCode
20MT-NLG2022-01-285300亿Microsoftgithub.com/microsoft/DeUsing DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model
19LaMDA2022-01-201370亿Googlegithub.com/conceptofminLaMDA: Language Models for Dialog Applications
18WebGPT2021-12-171750亿OpenAIopenai.com/research/webWebGPT: Browser-assisted question-answering with human feedback
17GLaM2021-12-1312000亿Googleai.googleblog.com/2021/GLaM: Efficient Scaling of Language Models with Mixture-of-Experts
16Gopher2021-12-082800亿Google DeepMinddeepmind.com/blog/languScaling Language Models: Methods, Analysis & Insights from Training Gopher
15T02021-10-15110亿Hugging Facegithub.com/bigscience-wMultitask Prompted Training Enables Zero-Shot Task Generalization
14FLAN2021-09-031370亿Googlegithub.com/google-reseaFinetuned Language Models Are Zero-Shot Learners
13Codex2021-07-07120亿OpenAIgithub.com/openai/humanEvaluating large language models trained on code
12ERNIE3.02021-07-05100亿百度github.com/PaddlePaddleERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation
11PanGu-Alpha2021-04-262000亿华为openi.pcl.ac.cn/PCL-PlaPanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation
10SwitchTransformer2021-01-1116000亿Googlehuggingface.co/google/sSwitch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
9mT52020-10-22130亿Googlehuggingface.co/google/mmT5: A Massively Multilingual Pre-trained Text-to-Text Transformer
8GShard2020-06-306000亿Googlearxiv.org/pdf/2006.1666GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding
7GPT-32020-05-281750亿OpenAIgithub.com/openai/gpt-3Language Models are Few-Shot Learners
6Turing-NLG2020-02-13170亿Microsoftmicrosoft.com/en-us/resTuring-NLG: A 17-billion-parameter language model by Microsoft
5T52019-10-23110亿Googlegithub.com/google-reseaExploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
4XLNet2019-06-193.4亿Google Braingithub.com/zihangdai/xlXLNet: Generalized Autoregressive Pretraining for Language Understanding
3Baidu-ERNIE2019-04-193.4亿百度github.com/PaddlePaddleERNIE: Enhanced Representation through Knowledge Integration
2GPT-22019-02-1415亿OpenAIgithub.com/openai/gpt-2Language Models are Unsupervised Multitask Learners
1BERT2018-10-113.4亿Googlegithub.com/google-reseaBidirectional Encoder Representations from Transformers
0GPT-12018-06-111.17 亿OpenAIgithub.com/openai/finetImproving Language Understanding by Generative Pre-Training

其中具有代表性的节点作品:

-结合对齐和翻译的神经网络机器翻译模型

论文题目:Neural Machine Translation by Jointly Learning to Align and Translate (2014)

论文解读:论文笔记《Neural Machine Translation by Jointly Learning to Align and Translate》

这篇文章引入了一种注意力机制(attention mechanism),用于提升递归神经网络(RNN)的长序列建模能力。这使得 RNN 能够更准确地翻译更长的句子——这也是后来开发出原始 Transformer 模型的动机。

Transformer注意力机制

论文题目:Attention Is All You Need (2017)

论文解读:详解Transformer (Attention Is All You Need)

这篇论文介绍了原始 Transformer 模型的结构。该模型由编码器和解码器两部分组成,这两个部分在后续模型中分离成两个独立的模块。此外,该论文还引入了缩放点积注意力机制(Scaled Dot Product Attention Mechanism)、多头注意力机制(Multi-head Attention Blocks)和位置编码(Positional Input Encoding)等概念,这些概念仍然是现代 Transformer 系列模型的基础。

BERT: 语言理解的深度双向 Transformer 预训练

论文题目:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)

论文解读:[详解] 一文读懂 BERT 模型

在原始的 Transformer 模型之后,大语言模型研究开始向两个方向分化:基于编码器结构的 Transformer 模型用于预测建模任务,例如文本分类;而基于解码器结构的 Transformer 模型用于生成建模任务,例如翻译、摘要和其他形式的文本内容生成。

GPT1:通过生成预训练改进语言理解

论文题目:Improving Language Understanding by Generative Pre-Training (2018)

论文解读:ChatGPT1论文解读《Improving Language Understanding by Generative Pre-Training》(2018)

在预训练阶段增加Transformer中间层可以显著提升效果;整个模型在12个数据集中的9个取得了更好的效果,说明该模型架构设计很不错,值得继续深入研究;辅助目标学习对于数据量越大的场景,可以越提升模型 的泛化能力。

GPT2:

论文题目:Language Models are Unsupervised Multitask Learners(2019)

GPT-2模型依旧使用Transformer模型的decoder,但相比于GPT-1,数据和模型参数变得更大,大约是之前的10倍,主打zero-shot任务。

GPT3:

论文题目:Language Models are Few-Shot Learners(2020)

论文解读:GPT-3阅读笔记:Language Models are Few-Shot Learners

GPT-3不再追求极致的zero-shot学习,即不给你任何样例去学习,而是利用少量样本去学习。因为人类也不是不看任何样例学习的,而是通过少量样例就能有效地举一反三。
由于GPT-3庞大的体量,在下游任务进行fine-tune的成本会很大。因此GPT-3作用到下游子任务时,不进行任何的梯度更新或fine-tune。

GPT4:生成式预训练变换模型

论文题目:GPT-4 Technical Report(2023)

论文解读:GPT-4大模型硬核解读,看完成半个专家

论文解读:GPT系列论文阅读笔记

整理数据来源于网上公开资源,如有不对之处请指正,谢谢。

参考:

1.关于 ChatGPT 必看的 10 篇论文

2.理解大语言模型–10篇论文的简明清单

3.GPT-4论文精读【论文精读·53】

4 .通向AGI之路:大型语言模型(LLM)技术精要

5.万字长文:LLM - 大语言模型发展简史

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13359.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一些常用的搜索技巧总结

最近ChatGPT的出现让全网哗然,其对自然语言和代码的处理能力,对文字的理解能力和固定模板下的创作能力都强得离谱。但比起这些,最令我惊讶的还是他及其庞大的知识库。数以千亿计的训练数据让他切实的做到了博古通今。在我看来,拥有…

chatgpt赋能Python-pycharm改名字

PyCharm更名为JetBrains PyCharm——专属Python开发者的最佳IDE JetBrains PyCharm是一款Python开发者最喜欢使用的IDE之一。然而,在2021年初,这款世界著名的Python IDE进行了一次重大更名——PyCharm更名为JetBrains PyCharm。在这篇文章中&#xff0c…

Claude 使用教程 AI助手,可平替Chatgpt,无需魔法

今天来分享下Claude AI工具2023-4月最新使用方法, Claude是Anthropic公司开发的一种基于大型语言模型的AI助手,类似于ChatGPT。 背景:Anthropic是一家由OpenAI的前联合创始人Dario Amodei和他的妹妹Daniela Amodei创立的AI研究公司 。他们的…

使用魔法改善魔法,用chatgpt生成剪贴板保存工具减轻工作量

最近开始使用chatgpt生成代码来编写小工具,大部分时候还算靠谱,就是每次从网页上粘贴内容到编辑器中比较麻烦,尤其是chatgpt洋洋洒洒,给了若干个程序代码,一个个的粘贴真是要了老命了。 试了试cursor,发现也…

Claude 免注册教程

前 OpenAI 副总裁创建的人工智能新项目 “Claude” 来了,有望与 ChatGPT 展开激烈竞争。 Claude 是什么? Claude 是由人工智能安全创业公司 Anthropic 开发的 AI 产品。Anthropic 由多位知名高校的人工智能专家联合创立,其宗旨是研究如何设计…

天津市人工智能计算中心揭牌 天下津梁融汇AI之力

“九河下稍天津卫,三道浮桥两道关”,这是天津人熟知的一句话,意思是九河下稍的尽头是天津卫,是说天津是九条河流的入海口。自明永乐二年天津设卫以来,这座城市就是江河汇聚、贯通南北的水陆码头。天津名字的由来之一&a…

昇腾AI深耕沽上:港口辐射力之后,天津再添基础创新辐射力

作者 | 曾响铃 文 | 响铃说 AI计算正在以新基建联动产业集群的方式,加速落地。 不久前,天津市人工智能计算中心正式揭牌,该中心整体规划300P算力,2022年底首批100P算力上线投入运营,并实现上线即满载。 这是昇腾AI…

AIGC:StableLM 简介

文章目录 [toc]简介应用实践小结其他 简介 众所周知,去年初创公司 Stability AI 发布的 AI 图像生成工具 Stable Diffusion,成为一种革命性的图像模型,也使 AI“文生图”实现了飞速的发展。满载着大家对其“不再局限于开发图像生成”和“开源…

Stable Diffusion公司开源大语言模型StableLM,网友:不是我想要的!

整理 | 朱珂欣 出品 | CSDN(ID:CSDNnews) 众所周知,去年初创公司 Stability AI 发布的 AI 图像生成工具 Stable Diffusion,成为一种革命性的图像模型,也使 AI“文生图”实现了飞速的发展。 满载着大家对其“…

copilot使用教程

Copilot简介 Copilot是⼀种基于⼈⼯智能的代码⾃动补全⼯具,由OpenAI和GitHub共同开发。它使⽤⼈⼯智能算 法来分析代码库,并根据上下⽂和编程语⾔的语法提⽰,⾃动⽣成⾼质量的代码。⽬前,Copilot只能 与GitHub上的代码库集成&…

zblog负载过高导致访问不流畅处理办法

当您的zblog负载过高时,可能会导致网站响应时间过长,甚至无响应。这会影响到您的访客体验,同时也会影响您的网站排名。以下是一些应对方法: 1. 增加服务器资源:如果您的服务器配置过低,可以考虑增加资源&am…

Stable Diffusion公司开源大语言模型StableLM,网友:能把人逼疯!

整理 | 朱珂欣 出品 | CSDN(ID:CSDNnews) 众所周知,去年初创公司 Stability AI 发布的 AI 图像生成工具 Stable Diffusion,成为一种革命性的图像模型,也使 AI“文生图”实现了飞速的发展。 满载着大家对其“…

GPT 学术优化 (ChatGPT Academic)搭建过程(含ChatGLM cuda INT4量化环境和newbing cookie)

文章目录 1、GPT Academic2、chatGPT3、chatGLM4、newbing 1、GPT Academic 项目地址:地址 安装部分 git clone https://github.com/binary-husky/chatgpt_academic.git cd chatgpt_academicconda create -n gptac_venv python3.11 conda activate gptac_venv pyt…

OpenAI GPT3.5/GPT3 + Flask 制作自己的交互网页教程 | 附源码 和 Github链接

1. OpenAI GPT API 1.1 GPT 3.5 API (更新) 真正的 ChatGPT API, gpt-3.5-turbo,终于来了!不同于之前的 GPT3 text-davinci-003 的 api 版本。 GPT 3.5 版本生成的回答将十分的智能。 下图是现在OpenAI提供的模型。…

ChatGLM实战 - 文本信息抽取

1. ChatGLM介绍 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存&…

【ChatGLM】本地版ChatGPT ?6G显存即可轻松使用 !ChatGLM-6B 清华开源模型本地部署教程

目录 感谢B站秋葉aaaki大佬 前言 部署资源 部署流程 实机演示 ChatGML微调(人格炼成)(个人感觉蛮有趣的地方) 分享有趣の微调人格 实机演示(潘金莲人格) 感谢B站秋葉aaaki大佬 秋葉aaaki的个人空间…

清华版Chatgpt:chatglm-6B教程——如何从训练中确定最合适的学习率

我们在使用chatglm-6B的时候,总会遇到一个问题。即学习率如何确定。我们首先先看chatglm的两个训练用sh文件的学习率是如何确定的。 一、如何第一时间确定学习率 我们可以看到在chatglm给的标准中,对于聊天的训练所默认的学习率是要小于训练广告词的&…

来自清华的ChatGPT?GLM-130B详解

原文:来自清华的ChatGPT?GLM-130B详解 - 知乎 本文会分析一下来自清华的ChatGPT,这篇论文的价值很大,为什么这么将?因为他开源了所有代码,包括模型,baseline。确实是一个不错的里程碑。 GLM-1…

一种平价的chatgpt实现方案,基于清华的 ChatGLM-6B + LoRA 进行finetune.(aigc大模型风口,校招找工作必备)

** 清华大学的chatglm-6b开源模型对话能力虽然能基本满足对话需求,但是针对专业领域和垂直领域回答显得智商捉急,这个时候就需要进行微调来提升效果,但是但是同学们显卡的显存更捉急,这时候一种新的微调方式诞生了,现在…

chatgpt相关关键字

听了一堂chatgpt的课程,真假参半,但积累了一些关键词。不知道这些关键字会在什么时候起到作用,先记录下来作为灵感积累 1 自然进化的过程,是人选择工具,也是工具选择人 2 Copliot-自动编程,感觉适用于独立新…