【大语言模型LLM】- Meta开源推出的新一代大语言模型 Llama 3

在这里插入图片描述

🔥博客主页：西瓜WiFi

🎥系列专栏：《大语言模型》

很多非常有趣的模型，值得收藏，满足大家的收集癖！如果觉得有用，请三连👍⭐❤️，谢谢！

长期不定时更新，欢迎watch和fork！❤️❤️❤️

❤️感谢大家点赞👍 收藏⭐ 评论⭐

🎥大语言模型LLM基础-系列文章：

【大语言模型LLM】- AI工具收录集合，一篇就够了！
【大语言模型LLM】-大语言模型如何编写Prompt?
【大语言模型LLM】-如何使用大语言模型提高工作效率？
【大语言模型LLM】-使用大语言模型搭建点餐机器人

⭐持续更新中…

一、热门大模型推荐

国外
- 🔥ChatGPT，OpenAI开发的一种基于GPT架构的对话生成模型。
- 🔥Claude，美国人工智能初创公司Anthropic发布的大型语言模型。
- 🔥Grok-1， Grok-1是由马斯克旗下的人工智能初创公司xAI发布的大语言模型。
国内
- 🔥文心一言，百度全新一代知识增强大语言模型。
- 🔥豆包，字节跳动公司基于云雀模型开发的AI工具。
- 🔥Kimi，月之暗面开发的国产人工智能大模型。
AI绘图
- 🔥Midjourney，人工智能研究实验室Midjourney, Inc.开发的Al图像生成工具。
- 🔥Stable Diffusion，Stable Diffusion是2022年发布的深度学习文本到图像生成模型。
- 🔥Microsoft Designer，强烈推荐👍，免费绘图+设计，Microsoft Designer是一款基于生成式AI技术的设计工具，它搭载了由OpenAI开发的AI绘画工具DALL-E 2。
AI写作
- 🔥火山写作，字节跳动旗下的火山引擎团队推出的AI中英文写作助手。
- 🔥新华秒笔，新华通讯社与博特智能共同研发推出，集成了案例参考、材料查找、AI写作、修改润色色、审核校对、文件学习等功能，全方位地辅助公职人员提高创作效率,节省人工编写的时间和精力。
- 🔥星火内容运营大师，星火内容运营大师是一款由科大讯飞推出的AI智能写作软件，旨在帮助内容运营者提高工作效率和质量。
- 🔥Paperpal，Paperpal正是以此为发想而研发的学术专项AI工具，旨在提升研究者的英语写作体验。

二、新一代大语言模型 Llama 3

2.1 Llama 3是什么？

2024年4月18日，Meta在官网上宣布公布了旗下最新大模型Llama 3。Llama 3 包含8B和70B两种参数规模的模型，标志着开源人工智能领域的又一重大进步。作为LIama系列的第三代产品，Llama 3不仅继承了前代模型的强大功能，还通过一系列创新和改进,提供了更高效、更可靠的AI解决力方案，旨在通过先进的自然语言处理技术，支持广泛的应用场景，包括但不限于编程、问题解决、翻译和对话生成。

2.2 Llama 3的系列型号

Llama 3目前提供了两种型号，分别为8B(80亿参数)和70B(700亿参数)的版本，这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。

Llama-3-8B：8B参数模型，这是一个相对较小但高效的模型，拥有有80亿个参数。专为需要快速推理和较少计算资源的应用景设计，同时保持了较高的性能标准。
Llama-3-70B：70B参数模型，这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力，适合对性能要求更高的应用。
后续，Llama 3还会推出400B参数规模的模型，目前还在训练中。Meta还表示等完成Llama 3的训练，还将发布一份详细的研究论文。

2.3 Llama 3的官网入口

官方项目主页：https://llama.meta.com/llama3/
GitHub模型权重和代码：https://github.com/meta-llama/llama3/
Hugging Face模型：https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

2.4 Llama 3改进的地方

参数规模：Llama3提供了8B和70B两种参数规模的模型，相比lama2，参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
训练数据集：Llama3的训练数据集比LIama2大了7倍，包含了超过15)万亿个token，其中包括4倍的代码数据，这使得Llama3在理解和生成代码方面更加出色。
模型架构：Llama3采用了更高效的分词器和分组查询注意力(Grouped Query Attention，GQA)技术，提高了模型的推理效率和处理长文本的能力。
性能提升：通过改进的预训练和后训练过程，Llama3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
安全性：引入了Llama Guard2等新的信任和安全工具，以及Code Shield和CyberSec Eval2，增强了模型的安全性和可靠性。
多语言支持：Llama3在预训练数据中加入了超过30种语言的高质量非英语数据，为未来的多语言能力打下了基础。
推理和代码生成：Llama3在推理、代码生成和指令跟随等方面展现了大幅提升的能力，使其在复杂
任务处理上更加精准和高效。

2.5 Llama 3的技术架构

解码器架构：Llama3采用了解码器(decoder-only)架构，这是一种标准的Transformer模型架构，主要用于处理自然语言生成任务。
分词器和词汇量：Llama3使用了具有128K个token的分词器，这使得摸型能够更高效地编码语言，从而显著提升性能。
分组查询注意力(GroupedQueryAttention，GQA)：为了提高推理效率，Llama3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组，减少了计算量，同时保持了模型的性能。
长序列处理：Llama3支持长达8，192个token的序列，使用掩码(maasking)技术确保自注意力(self-attention)不会跨越文档边界，这对于处理长文本尤其重要。
预训练数据集：Llama3在超过15TB的token上进行了预训练，这这个数据集不仅规模巨大，而且质量高，为模型提供了丰富的语言信息。
多语言数据：为了支持多语言能力，Llama3的预训练数据集包含了超过5%的非英语高质量数据，涵盖了超过30种语言。
数据过滤和质量控制：Llama3的开发团队开发了一系列数据过虑管道，包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器，以确保保训练数据的高质量。
扩展性和并行化：Llama3的训练过程中采用了数据并行化、模型并行化和流水线并行化，这些技术的应用使得模型能够高效地在大量GPU上进行训练。
指令微调(Instruction Fine-Tuning)：Llama3在预训练模型的基础上，通过指令微调进一步提升了模型在特定任务上的表现，如对话和编程任务。