【大语言模型LLM】- Meta开源推出的新一代大语言模型 Llama 3

在这里插入图片描述

🔥博客主页西瓜WiFi

🎥系列专栏《大语言模型》

很多非常有趣的模型,值得收藏,满足大家的收集癖! 如果觉得有用,请三连👍⭐❤️,谢谢!

长期不定时更新,欢迎watch和fork!❤️❤️❤️

❤️感谢大家点赞👍 收藏⭐ 评论⭐


🎥大语言模型LLM基础-系列文章

【大语言模型LLM】- AI工具收录集合,一篇就够了!
【大语言模型LLM】-大语言模型如何编写Prompt?
【大语言模型LLM】-如何使用大语言模型提高工作效率?
【大语言模型LLM】-使用大语言模型搭建点餐机器人

持续更新中…

一、热门大模型推荐

  • 国外

    • 🔥ChatGPT,OpenAI开发的一种基于GPT架构的对话生成模型。
    • 🔥Claude,美国人工智能初创公司Anthropic发布的大型语言模型。
    • 🔥Grok-1, Grok-1是由马斯克旗下的人工智能初创公司xAI发布的大语言模型。
  • 国内

    • 🔥文心一言,百度全新一代知识增强大语言模型。
    • 🔥豆包,字节跳动公司基于云雀模型开发的AI工具。
    • 🔥Kimi,月之暗面开发的国产人工智能大模型。
  • AI绘图

    • 🔥Midjourney,人工智能研究实验室Midjourney, Inc.开发的Al图像生成工具。
    • 🔥Stable Diffusion,Stable Diffusion是2022年发布的深度学习文本到图像生成模型。
    • 🔥Microsoft Designer,强烈推荐👍,免费绘图+设计,Microsoft Designer是一款基于生成式AI技术的设计工具,它搭载了由OpenAI开发的AI绘画工具DALL-E 2。
  • AI写作

    • 🔥火山写作,字节跳动旗下的火山引擎团队推出的AI中英文写作助手。
    • 🔥新华秒笔,新华通讯社与博特智能共同研发推出,集成了案例参考、材料查找、AI写作、修改润色色、审核校对、文件学习等功能,全方位地辅助公职人员提高创作效率,节省人工编写的时间和精力。
    • 🔥星火内容运营大师,星火内容运营大师是一款由科大讯飞推出的AI智能写作软件,旨在帮助内容运营者提高工作效率和质量。
    • 🔥Paperpal,Paperpal正是以此为发想而研发的学术专项AI工具,旨在提升研究者的英语写作体验。

二、新一代大语言模型 Llama 3

2.1 Llama 3是什么?

2024年4月18日,Meta在官网上宣布公布了旗下最新大模型Llama 3。Llama 3 包含8B和70B两种参数规模的模型,标志着开源人工智能领域的又一重大进步。作为LIama系列的第三代产品,Llama 3不仅继承了前代模型的强大功能,还通过一系列创新和改进,提供了更高效、更可靠的AI解决力方案,旨在通过先进的自然语言处理技术,支持广泛的应用场景,包括但不限于编程、问题解决、翻译和对话生成。

2.2 Llama 3的系列型号

Llama 3目前提供了两种型号,分别为8B(80亿参数)和70B(700亿参数)的版本,这两种型号旨在满足不同层次的应用需求,为用户提供了灵活性和选择的自由度。

  • Llama-3-8B:8B参数模型,这是一个相对较小但高效的模型,拥有有80亿个参数。专为需要快速推理和较少计算资源的应用景设计,同时保持了较高的性能标准。
  • Llama-3-70B:70B参数模型,这是一个更大规模的模型,拥有700亿个参数。它能够处理更复杂的任务,提供更深入的语言理解和生成能力,适合对性能要求更高的应用。
    后续,Llama 3还会推出400B参数规模的模型,目前还在训练中。Meta还表示等完成Llama 3的训练,还将发布一份详细的研究论文。

2.3 Llama 3的官网入口

  • 官方项目主页:https://llama.meta.com/llama3/
  • GitHub模型权重和代码:https://github.com/meta-llama/llama3/
  • Hugging Face模型:https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

2.4 Llama 3改进的地方

  • 参数规模:Llama3提供了8B和70B两种参数规模的模型,相比lama2,参数数量的增加使得模型能够捕捉和学习更复杂的语言模式。
  • 训练数据集:Llama3的训练数据集比LIama2大了7倍,包含了超过15)万亿个token,其中包括4倍的代码数据,这使得Llama3在理解和生成代码方面更加出色。
  • 模型架构:Llama3采用了更高效的分词器和分组查询注意力(Grouped Query Attention,GQA)技术,提高了模型的推理效率和处理长文本的能力。
  • 性能提升:通过改进的预训练和后训练过程,Llama3在减少错误拒绝率、提升响应对齐和增加模型响应多样性方面取得了进步。
  • 安全性:引入了Llama Guard2等新的信任和安全工具,以及Code Shield和CyberSec Eval2,增强了模型的安全性和可靠性。
  • 多语言支持:Llama3在预训练数据中加入了超过30种语言的高质量非英语数据,为未来的多语言能力打下了基础。
  • 推理和代码生成:Llama3在推理、代码生成和指令跟随等方面展现了大幅提升的能力,使其在复杂
    任务处理上更加精准和高效。

2.5 Llama 3的技术架构

  • 解码器架构:Llama3采用了解码器(decoder-only)架构,这是一种标准的Transformer模型架构,主要用于处理自然语言生成任务。
  • 分词器和词汇量:Llama3使用了具有128K个token的分词器,这使得摸型能够更高效地编码语言,从而显著提升性能。
  • 分组查询注意力(GroupedQueryAttention,GQA):为了提高推理效率,Llama3在8B和70B模型中都采用了GQA技术。这种技术通过将注意力机制中的查询分组,减少了计算量,同时保持了模型的性能。
  • 长序列处理:Llama3支持长达8,192个token的序列,使用掩码(maasking)技术确保自注意力(self-attention)不会跨越文档边界,这对于处理长文本尤其重要。
  • 预训练数据集:Llama3在超过15TB的token上进行了预训练,这这个数据集不仅规模巨大,而且质量高,为模型提供了丰富的语言信息。
  • 多语言数据:为了支持多语言能力,Llama3的预训练数据集包含了超过5%的非英语高质量数据,涵盖了超过30种语言。
  • 数据过滤和质量控制:Llama3的开发团队开发了一系列数据过虑管道,包括启发式过滤器、NSFW(不适合工作场所)过滤器、语义去重方法和文本分类器,以确保保训练数据的高质量。
  • 扩展性和并行化:Llama3的训练过程中采用了数据并行化、模型并行化和流水线并行化,这些技术的应用使得模型能够高效地在大量GPU上进行训练。
  • 指令微调(Instruction Fine-Tuning):Llama3在预训练模型的基础上,通过指令微调进一步提升了模型在特定任务上的表现,如对话和编程任务。

2.6 如何使用 Llama 3

开发人员
Meta已在GitHub、Hugging Face、Replicate上开源其Llama3模型,开发人员可使用torchtune等工具对Llama3进行定制和微调,以适应特定的用例和需求,感兴趣的开发者可以查看官方的入门指南并前往下载部署。

  • 官方模型下载:https://llama.meta.com/llama-downloads
  • GitHub地址:https://github.com/meta-llama/llama3/
  • Hugging Face地址:https://huggingface.co/meta-llama
  • Replicate地址:https://replicate.com/meta
    普通用户

不懂技术的普通用户想要体验Llama 3可以通过以下方式使用:

  • 访问Meta最新推出的Meta Al聊天助手进行体验(注:Meta.Al会员区,只有部分国家可使用)
  • 访问Replicate提供的Chat with Llama进行体验https://llama3.replicate.dev/
  • 使用Hugging Chat(https://huggingface.co/chat/),可手动将模型切换至Llama 3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/314781.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Unity对应的c#版本

本文主要是记录一下unity已经开始兼容c#的版本和.net版本,以便更好的利用c#的特性。 c#和.net对应情况 微软已经将.net开发到.net 9了,但是unity的迭代速度远没有c#迭代速度快,已知unity最新的LTS版本unity2023已经兼容了c#9 可以在unity手册…

【深度学习】yolo-World,数据标注,zeroshot,目标检测

仓库:https://github.com/AILab-CVC/YOLO-World 下载权重: 仓库下载和环境设置 下载仓库:使用以下命令从 GitHub 上克隆仓库: git clone --recursive https://github.com/AILab-CVC/YOLO-World.git创建并激活环境&#xff1a…

网络安全新挑战:通用人工智能(AGI)等级保护指南

通用人工智能(AGI)的发展现状及趋势 随着2023年大语言模型应用的划时代突破,以ChatGPT为杰出代表的此类技术犹如一股洪流,彻底颠覆了人类与机器智能交互的疆界,引领通用人工智能(AGI)步入一个崭…

【继承和多态】

闭上眼睛,什么都不听.............................................................................................................. 文章目录 前言 一、【继承】 1.1【继承的概念】 1.2【 继承的定义】 1.2.1【定义格式】 1.2.2【继承关系和访问限定符】 1.2…

回归预测 | Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测

回归预测 | Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测 目录 回归预测 | Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测预测效果基本描述程序设计参考资料 预测效果 基本描述 1.Matlab实现SA-BP模拟退火算法优化BP神经网络多变量回归预测&#xff0…

OGG extract进程占据大量虚拟内存导致服务器内存异常增长分析

现象 oracle服务器一节点内存,一个月来持续升高,近一月上涨10%左右。 问题分析 OS内存使用情况 使用内存最大的10个进程如下,PID为279417占用最大的内存。 查询279417,发现是ogg相关进程。 发现ogg的extract进程占用了大量的虚拟内…

27 - 数据传送指令

---- 整理自B站UP主 踌躇月光 的视频 文章目录 1. CPU 电路2. 数据传送指令的几种情况3. 实验工程4. 实验结果 1. CPU 电路 2. 数据传送指令的几种情况 # program.asm; 1. ; MOV A, 5;; 2. ; MOV A, B;; 3. ; MOV A, [5];; 4. ; MOV B, 6 ; MOV A, [B]; 5. ; MOV [0x2f], 5;; …

Apache RocketMQ ACL 2.0 全新升级

作者:徒钟 引言 RocketMQ 作为一款流行的分布式消息中间件,被广泛应用于各种大型分布式系统和微服务中,承担着异步通信、系统解耦、削峰填谷和消息通知等重要的角色。随着技术的演进和业务规模的扩大,安全相关的挑战日益突出&am…

为AI电脑生态注入强悍动力,安耐美PlatiGemini 1200W高性能电源

在DIY攒机的过程中,电源是非常重要的一环,现在高性能的硬件功耗往往很高,因此一款优秀的电源整个系统稳定运行的基石。最近,我发现一款由安耐美(Enermax)推出的PlatiGemini 1200W电源,它不仅满足…

云原生Kubernetes: K8S 1.29版本 部署ingress-nginx

目录 一、实验 1.环境 2. K8S 1.29版本 部署ingress-nginx 二、问题 1.kubectl 如何强制删除 Pod、Namespace 资源 2.创建pod失败 3.pod报错ImagePullBackOff 4.docker如何将镜像上传到官方仓库 5.创建ingress报错 一、实验 1.环境 (1)主机 表…

springboot如何使用RedisTemplate

第一步&#xff1a;创建一个spring boot项目 第二步&#xff1a;pom导入redis相关依赖 <!--reids依赖--> <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </depen…

微信小程序:12.页面导航

什么是页面导航 页面导航指的是页面之间的相互跳转。例如&#xff0c;浏览器中实现的页面导航的方式有两种&#xff1a; 连接location.href 小程序中实现页面导航的两种方式 声明式导航 在页面上声明一个导航组件 通过点击组件实现页面跳转 导航TabBar页面 是指配置TabB…

LM2576D2TR4-5G 3.0安15伏降压开关稳压器 PDF中文资料_参数_引脚图

LM2576D2TR4-5G 规格信息&#xff1a; 制造商:ON Semiconductor 产品种类:开关稳压器 RoHS:是 装置风格:SMD/SMT 封装 / 箱体:TO-263-5 输出电压:5 V 输出电流:3 A 输出端数量:1 Output 最大输入电压:45 V 拓扑结构:Buck 最小输入电压:7 V 开关频率:52 kHz 最小工作…

AndroidStudio中虚拟机(AVD)无法启动,出现unable to locate adb错误

1.检查Android SDK Platform-Tools是否安装(个人是通过这个方法解决的) 首先通过File-Project Structure-Project SDK检查SDK有没有被选中 步骤&#xff1a;打开file -> settings &#xff0c;搜索SDK 之后点击"-",在点击Apply进行安装 2.可能是驱动的问题 电脑…

Mudem,打造私密安全、高效稳定的私人空间

Mudem 是 Codigger 平台中的一个关键组件&#xff0c;它提供基础通讯服务&#xff0c;确保不同类型的机器之间可以进行安全和高效的连接。它其设计理念在于将本地机器、公有云以及私有云上的设备无缝地整合为一个可远程在线访问的工作站&#xff08;Workstation&#xff09;。这…

第10章:知识整合提示

这种技术使用模型的预先存在的知识&#xff0c;来整合新、旧信息&#xff0c;助力我们全面认知特定的主题。 与ChatGPT配合时&#xff0c;只需提供新信息与任务目标&#xff0c;加上清晰的提示词&#xff0c;它就能为你生成满意文本。 例 1:知识整合 任务&#xff1a;将新信息…

刷题之Leetcode242题(超级详细)

242.有效的字母异位词 力扣题目链接(opens new window)https://leetcode.cn/problems/valid-anagram/ 给定两个字符串 s 和 t &#xff0c;编写一个函数来判断 t 是否是 s 的字母异位词。 示例 1: 输入: s "anagram", t "nagaram" 输出: true 示例 2…

SpanBert学习

SpanBERT: Improving Pre-training by Representing and Predicting Spans 核心点 提出了更好的 Span Mask 方案&#xff0c;也再次展示了随机遮盖连续一段字要比随机遮盖掉分散字好&#xff1b;通过加入 Span Boundary Objective (SBO) 训练目标&#xff0c;增强了 BERT 的性…

OpenCV直方图计算

返回:OpenCV系列文章目录&#xff08;持续更新中......&#xff09; 上一篇&#xff1a;OpenCV实现直方图均衡 下一篇 :OpenCV系列文章目录&#xff08;持续更新中......&#xff09; 在本教程中&#xff0c;您将学习如何&#xff1a; 使用 OpenCV 函数 cv::split 将图像划分…

Servlet和Tomcat运作过程

记录一下前后端请求交互过程&#xff08;不涉及Spring框架&#xff09;&#xff1a; 编写一个UserServlet 在web.xml文件中编写映射路径 编写前端