Deepseek v3 的笔记

基本概述

Deepseek v3是Deepseek发布的旗舰模型,属于607B的混合专家(MoE)模型,其中活跃参数为37B。在当前的模型领域,它堪称最佳的开源模型,性能超越了Llama 3.1 405b、Qwen和Mistral等知名模型。根据基准测试结果,它与OpenAI的GPT - 4o以及Claude 3.5 Sonnet处于同一水平,并且在某些任务上的表现还要更胜一筹。

训练优势及突破

  • 成本与效率:在训练方面取得了令人瞩目的成果,仅花费约600万美元,在英伟达h800s集群上使用278.8万个GPU小时,基于14.8万亿高质量数据完成了预训练。与之形成鲜明对比的是,Llama 403b的训练数据量是其11倍,消耗了3084万个GPU小时,并且同样基于约15万亿的token进行训练。

技术创新

  • 模型架构

    • MoE架构:采用混合专家(MoE)架构,在处理每个token时,仅激活37B的参数,相较于传统的密集模型,这种稀疏激活方式极大地降低了计算需求。

    • 多头潜在注意力(MLA):运用此技术压缩了键值(Key - Value)缓存,不仅减少了内存使用量,还使得训练过程更加高效。

  • FP8混合精度训练:实现了FP8混合精度训练框架,与传统的FP16/FP32格式相比,内存占用最多可降低50%。同时,通过采用细粒度量化策略以及提高累加精度,在提升训练速度的同时有效保证了模型的准确性。

  • 负载均衡策略:针对MoE架构,首创了无辅助损失的负载均衡策略,这种策略在不引入传统辅助损失方法弊端的前提下,有效提升了模型的性能。

  • 训练框架:开发了自定义的HAI - LLM训练框架,该框架具备多项优化:

    • 双管道算法:通过双管道算法实现了高效的流水线并行,减少了流水线中的气泡,实现了计算和通信的重叠,从而提高了训练效率。

    • 高效通信内核:具备高效的跨节点全对全通信内核,能够充分利用网络带宽,加速数据传输。

    • 内存优化:通过精心的内存优化措施,避免了使用成本高昂的张量并行,进一步降低了训练成本。

新增特性

Deepseek v3新增了深度思考(Deepthink)功能,融入了Deepseek R1系列模型的思维链(CoT)能力。具体做法是通过创新的知识蒸馏方法,将R1系列模型的推理能力迁移到Deepseek v3中,在这个过程中,巧妙地将R1的验证和反思模式融入其中,不仅显著提升了v3的推理性能,还能够对v3的输出风格和长度进行有效控制。用户可以在Deepseek聊天界面中启用该特性,尽管其效果不如o1,但对模型推理能力有一定程度的增强。

与其他模型的性能对比

作者围绕推理、数学、编码、创意写作四个关键领域,使用一系列基准问题对Deepseek v3、GPT - 4o和Claude 3.5 Sonnet进行了测试:

  • 推理能力

    • “找第四个单词”问题:未启用Deepthink CoT时回答错误,启用后经过分析思考,正确找出了句子中的第四个单词,证明该特性有助于提升推理准确性。

    • “数单词数量”问题:Deepseek v3回答错误,但GPT - 4o和Claude 3.5 Sonnet同样未能答对。

    • “草莓单词中r的数量”问题:Deepseek v3正确回答,而GPT - 4o从未答对过该问题。

    • “农夫与羊过河”问题:无论是否启用Deepthink CoT,Deepseek v3都未能得出正确答案,但整体来看,它在推理能力上仍优于GPT - 4o和Claude 3.5 Sonnet,虽不及o1,但表现也较为出色。

  • 数学能力

    • 简单减法运算:对于“5.11 - 5.90”这类简单数学问题能够正确计算。

    • 平行四边形顶点问题:在求平行四边形可能的第四个顶点问题上,Deepseek v3能够准确找出所有可能的顶点,而GPT - 4o和3.5 Sonnet只能找出一个。

    • 整数求和问题:面对较复杂的整数相关数学问题,启用Deepthink特性后,Deepseek v3给出了正确答案,表明其数学能力强于GPT - 4o和Claude 3.5 Sonnet。

  • 编码能力:使用LeetCode上较新的“Super Heroes”这一“Hard”难度的动态规划问题进行测试。Deepseek v3首次回答时完全失败,一个测试用例都未通过,但再次尝试时给出了完美解决方案,且性能表现优异。综合来看,其编码能力接近GPT - 4,但Claude 3.5 Sonnet在编码方面仍有微弱优势。

  • 创意写作能力:Deepseek v3的输出在风格上与GPT - 4o极其相似,包括响应模式、段落结构以及用词等方面。例如在对同一段落进行优化时,两者输出近乎相同,推测可能是基于GPT - 4o生成的合成数据集进行训练。不过在创意写作方面,Claude 3.5 Sonnet因具有更人性化的观点和看法而略胜一筹。

最终评价与适用场景

  • 最终评价:在推理和数学任务上,Deepseek v3表现最佳,依次领先于Claude 3.5 Sonnet和OpenAI GPT - 4o;在编码和创意写作任务中,Claude 3.5 Sonnet更具优势,Deepseek v3与GPT - 4o水平相近,Deepseek v3稍强一些。

  • 适用场景:如果使用场景主要围绕GPT - 4o展开,那么可以放心切换到Deepseek v3;对于构建基于大语言模型(LLM)的应用来说,Deepseek v3因其卓越的性价比,是开发面向客户端AI应用的不二之选;此外,该模型权重开源,用户能够自行托管,这给予了用户对模型更多的控制权。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/501737.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于单片机的家庭智能垃圾桶(论文+源码)

1系统整体方案设计 本次课题为基于单片机的家庭智能垃圾桶,在此将目标功能设计如下: (1)实现垃圾桶的智能开关盖当检测到有人停留三秒以上自动开启,并当人走后自动关闭开关盖; (2&#xff0…

Niushop商城商业插件_cps联盟_包装转换_视频购物_同城配送_上门预约等插件的安装方法

一.简介 使用Niushop已经多年,积累下很多有用的常识,有人让我评价下这个系统!怎么说呢!系统是好系统因为它开源!且更新也很及时几乎是一周一更新,开发团队也很尽职,在用户群内得到很高的评价&am…

一文讲清楚HTTP常见的请求头和应用

文章目录 一文讲清楚HTTP常见的请求头和应用1. 啥是个HTTP请求头2. 常见的请求头,作用和示例3.协商缓存4.会话状态 一文讲清楚HTTP常见的请求头和应用 1. 啥是个HTTP请求头 一句话,说白了就是限定HTTP传输的一些规则参数,比如Accept&#xf…

vim 的基础使用

目录 一:vim 介绍二:vim 特点三:vim 配置四:vim 使用1、vim 语法格式2、vim 普通模式(1)保存退出(2)光标跳转(3)文本删除(4)文本查找&…

RocketMQ面试题:进阶部分

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

设计模式之桥接设计模式

简介 与适配器模式类似,桥接设计模式也是结构型模式将抽象部分与实现部分分离,使它们都可以独立的变化通俗来说,是通过组合来桥接其它的行为/维度 应用场景举例 传统方式 使用桥接设计模式之后 编码示例 /*** 抽象角色:手机*/ …

个人健康信息系统|Java|SSM|VUE| 前后端分离

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、VUE、jquery,html 5⃣️数据库可…

个人交友系统|Java|SSM|JSP|

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、JSP、jquery,html 5⃣️数据库可…

每天40分玩转Django:Django Celery

Django Celery 一、知识要点概览表 模块知识点掌握程度要求Celery基础配置、任务定义、任务执行深入理解异步任务任务状态、结果存储、错误处理熟练应用周期任务定时任务、Crontab、任务调度熟练应用监控管理Flower、任务监控、性能优化理解应用 二、基础配置实现 1. 安装和…

canvas+fabric实现时间刻度尺+长方形数据展示

前言 我们前面实现了时间刻度尺&#xff0c;现在在时间刻度尺里面画一个长方形&#xff0c;长方形里面有数据展示。 效果 实现 1.先实现时间刻度尺 2.鼠标移动、按下事件监听并画出对应效果 3.在刻度尺里面画对应的长方形数据展示 <template><div><canvas…

网络安全【C10-2024.10.1】-sql注入基础

1、利用宽字节注入实现“库名-表名”的注入过程&#xff0c;写清楚注入步骤&#xff1b; 宽字节概念 1、如果一个字符的大小是一个字节的&#xff0c;称为窄字节&#xff1b; 2、如果一个字符的大小是两个及以上字节的&#xff0c;称为宽字节&#xff1b;像GB2312、GBK、GB1803…

【Domain Generalization(2)】领域泛化在文生图领域的工作之——PromptStyler(ICCV23)

系列文章目录 【Domain Generalization(1)】增量学习/在线学习/持续学习/迁移学习/多任务学习/元学习/领域适应/领域泛化概念理解第一篇大概了解了 DG 的概念&#xff0c;那么接下来将介绍 DG 近年在文生图中的应用/代表性工作。本文介绍的是 PromptStyler: Prompt-driven Sty…

MySQL 08 章——聚合函数

聚合函数是对一组数据进行汇总的函数&#xff0c;输入的是一组数据的集合&#xff0c;输出的是单个值 一、聚合函数介绍 &#xff08;1&#xff09;AVG和SUM函数 举例&#xff1a;只适用于数值类型的字段&#xff08;或变量&#xff09;AVG函数和SUM函数在计算空值时&#x…

HTML——73.button按钮

<!DOCTYPE html> <html><head><meta charset"UTF-8"><title>button按钮</title></head><body><!--button按钮&#xff1a;1.button按钮type属性&#xff1a;可以设置三个值&#xff0c;submit/reset/button,含义…

Java 数据库连接 - Sqlite

Java 数据库连接 - Sqlite PS: 1. 连接依赖库&#xff1a;[sqlite-jdbc-xxx.jar](https://mvnrepository.com/artifact/org.xerial/sqlite-jdbc)(根据连接的数据库版本选择) 2. 支持一次连接执行多次sql语句&#xff1b; 3. 仅本地连接&#xff1b;使用说明&#xff1a; publ…

NCCL源码解读3.1:double binary tree双二叉树构建算法,相比ring环算法的优势

目录 一、双二叉树出现的原因 二、双二叉树介绍 三、双二叉树大规模性能 四、双二叉树源码解读 双二叉树注意事项 核心逻辑 源码速递 视频分享在这&#xff0c;未完待补充&#xff1a; 3.1 NCCL源码解读双二叉树构建算法&#xff0c;double binary tree相比ring环算法的…

深入理解 JVM 的垃圾收集器:CMS、G1、ZGC

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/literature?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;…

四、VSCODE 使用GIT插件

VSCODE 使用GIT插件 一下载git插件与git Graph插件二、git插件使用三、文件提交到远程仓库四、git Graph插件 一下载git插件与git Graph插件 二、git插件使用 git插件一般VSCode自带了git&#xff0c;就是左边栏目的图标 在下载git软件后vscode的git插件会自动识别当前项目 …

【NLP高频面题】用RNN训练语言模型时如何计算损失?

用RNN训练语言模型时如何计算损失&#xff1f; 重要性&#xff1a;★ 以“you say goodbye and i say hello.”为例&#xff0c;将其作为具体的数据传入网络&#xff0c;此时 RNNLM 进行的处理如图所示&#xff1a; RNNLM 可以“记忆”目前为止输入的单词&#xff0c;并以此…

Spring Cloud Security集成JWT 快速入门Demo

一、介绍 JWT (JSON Web Token) 是一种带有绑实和信息的简单标准化机制&#xff0c;在信息通信中用于验证和信息传递。尤其在应用中使用Spring Cloud实现分布式构建时&#xff0c;JWT可以作为一种无状态验证原理的证明。 本文将进一步描述如何在Spring Cloud Security中集成JW…