全面认识了解DeepSeek+利用ollama在本地部署、使用和体验deepseek-r1大模型

文章目录

    • 一、DeepSeek简介
    • 二、技术特点
    • 三、架构设计
      • 3.1、DeepSeek-V3
      • 3.2、DeepSeek-V2
      • 3.3、DeepSeek-R1
    • 四、DeepSeek算法
      • 4.1、DeepSeek LLM 算法
      • 4.2、DeepSeek-V2 算法
      • 4.3、DeepSeek-R1 算法
      • 4.4、DeepSeek 在算力优化上的算法
    • 五、DeepSeek的使用
    • 六、本地部署DeepSeek R1模型
      • 6.1、安装Ollama
      • 6.2、下载DeepSeek R1模型


一、DeepSeek简介

DeepSeek 是一家专注于人工智能领域的创新型科技公司;成立于2023年7月;公司名称:杭州深度求索人工智能基础技术研究有限公司。

大事件:

  • 2025 年 1 月,其相关应用登顶苹果中国地区和美国地区应用商店免费 APP 下载排行榜,在美区下载榜上超越了 ChatGPT。
  • 受 DeepSeek 冲击,2025 年 1 月 27 日美国人工智能主题股票遭抛售,美国芯片巨头英伟达股价历史性暴跌,纳斯达克综合指数大幅下跌。

发展历程及产品发布

  • 2024 年 1 月 5 日,发布 DeepSeek LLM,这是深度求索的第一个大模型,包含 670 亿参数,全部开源。
  • 2024 年 1 月 25 日,发布 DeepSeek-Coder,由一系列代码语言模型组成,在多种编程语言和各种基准测试中达到了开源代码模型的最先进性能。
  • 2024 年 2 月 5 日,发布 DeepSeek Math,以 DeepSeek-Coder-V1.5 7B 为基础进行预训练,在竞赛级 Math 基准测试中取得了 51.7% 的优异成绩。
  • 2024 年 3 月 11 日,发布 DeepSeek-VL,是一个开源的视觉 - 语言(VL)模型,在各种视觉任务中能捕捉关键语义和细节信息。
  • 2024 年 5 月 7 日,发布第二代开源混合专家(MoE)模型 DeepSeek-V2,包含 2360 亿个总参数,以经济高效的训练和推理为特点。
  • 2024 年 6 月 17 日,发布 DeepSeek-Coder-V2,在代码特定任务中达到了与 GPT4-Turbo 相当的性能。
  • 2024 年 12 月 13 日,发布用于高级多模态理解的专家混合视觉语言模型 DeepSeek-VL2,在多种任务中展现了卓越的能力。
  • 2024 年 12 月 26 日,发布 DeepSeek-V3 首个版本并同步开源,为自研 MoE 模型,生成速度相比 V2.5 模型实现了 3 倍的提升。
  • 2025 年 01 月 20 日DeepSeek-R1 发布,性能对标 OpenAI o1 正式版;DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
  • 蒸馏小模型超越 OpenAI o1-mini:在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。

在这里插入图片描述

二、技术特点

  • 性能强劲:在知识类任务、美国数学竞赛和全国高中数学联赛等测试中表现出色,大幅超过部分开源闭源模型,在多语言编程测试排行榜中,仅次于 OpenAI o1 大模型。
  • 开源特性:多个模型完全开源,如 DeepSeek-V3 等,采用 Apache2.0 许可证,开发者和研究人员可以对其进行访问、使用、研究、修改和分享。
  • 多语言支持:支持多达 20 种语言的实时翻译和语音识别,在中文能力上与 Qwen2.5-72B 在部分评测集上表现相近。
  • 训练成本低:如 DeepSeek-V3 的训练仅使用了 2048 个 H800 GPU,其 API 服务定价也具有较高的性价比。

免费,开源,成本低,算法强,性能高

三、架构设计

DeepSeek 不同模型在 Transformer 架构基础上进行了诸多创新;

3.1、DeepSeek-V3

多头潜注意力(MLA)

  • 计算分解:将键和值向量的计算分解成两个步骤,引入潜变量。把传统计算键和值向量从原材料到产品的加工,加入了 “中间产品” 潜向量,将原本的矩阵分解成两个较小矩阵,在推理时只缓存潜向量,大大节省存储空间。
  • 低秩压缩:利用不同注意力头之间信息重叠的特性,通过低秩压缩提取共同信息,允许不同注意力头以不同方式使用这些信息,减少冗余,还可能对训练产生正则化效果。

混合专家模型(MoE)的进化

  • 无辅助损失的负载均衡:抛弃传统在训练损失中添加辅助损失项的方法,采用动态偏置项。为每个专家设置可学习偏置项并加到专家亲和力上,若某个专家被激活次数过少,就增加其偏置项,使其更易被选中,避免辅助损失带来的性能损害。
  • 共享专家机制:通过共享专家机制,不同的任务或数据可以共享一些通用的专家,提高专家的利用率,进一步提升模型的效率和泛化能力,避免路由崩溃。

多令牌预测(MTP):传统模型一般逐个预测 token,MTP 技术可以一次预测多个 token,使模型推理速度更快,生成内容更连贯,提升了模型的生成效率和质量。

3.2、DeepSeek-V2

  • Transformer 核心:每个 Transformer 块由一个注意力模块和一个前馈网络(FFN)组成,为模型提供基础的并行计算和长序列处理能力,能够捕捉文本中的长距离依赖关系。
  • MLA 架构:减少计算量和推理显存,让模型在处理长文本等任务时,能更高效地利用资源,提升处理速度和性能。
  • DeepSeekMoE:自研的 Sparse 结构,进一步降低计算量,与 MLA 结合实现模型性能跨级别的提升,在拥有大量参数的情况下,保持高效的计算和推理。
  • 训练框架:基于高效且轻量级的框架 HAI-LLM 进行训练,采用 16-way zero - bubble pipeline 并行、8-way 专家并行和 ZeRO-1 数据并行,提高训练效率,充分利用计算资源,加速模型收敛。

3.3、DeepSeek-R1

  • 知识蒸馏架构:通过知识蒸馏架构,将长链推理模型的能力传递给标准的 LLM,提升标准 LLM 的推理能力,使模型能够更好地处理复杂的推理任务。
  • 强化学习架构:以纯强化学习架构训练 R1-Zero,让模型在试错中学习,探索新的训练方式,为模型训练提供新方向,尽管存在一些问题,但具有一定的创新性和探索价值。
  • 多阶段训练架构:引入多阶段训练和冷启动数据,在不同训练阶段采用不同方法,并在模型开始学习前提供高质量数据,帮助模型更好地初始化和学习,提高模型的训练效果和稳定性。

四、DeepSeek算法

DeepSeek 算法以 Transformer 架构为基础,采用了多种技术来提升性能和效率;

4.1、DeepSeek LLM 算法

架构方面

  • 核心 Transformer 架构:采用自回归 Transformer 解码器架构,以注意力机制为核心,能并行计算,高效处理长序列数据,捕捉文本长距离依赖关系,让模型更好理解上下文语义。
  • 分组查询注意力(GQA):在 670 亿参数版本中采用 GQA 技术,优化推理成本,在保持性能同时减少计算量,提高模型运行效率。
  • 旋转位置编码(Rotary Embedding):采用旋转位置编码表示位置信息,让模型能区分不同位置的文本信息,更好捕捉文本顺序和结构,提升语言理解和生成能力。

训练优化方面

  • 优化器:选择 AdamW 优化器,结合了 Adam 优化器和权重衰减技术,有效调整模型参数更新步长,防止过拟合,有助于模型快速稳定收敛。
  • 学习率策略:采用独特的多步学习率计划,根据训练阶段和数据特点调整学习率,在不同训练时期为模型提供合适学习率,提高训练效率和模型性能。
  • 微调技术:使用监督微调(SFT)和直接偏好优化(DPO)技术,基于预训练模型,在特定任务数据集上微调,使模型输出更符合任务需求,提升在具体任务上的性能表现。

4.2、DeepSeek-V2 算法

  • 混合专家(MoE)架构:采用混合专家架构,由多个专家网络和门控网络组成,根据输入数据动态选择激活部分专家网络处理,提高模型表示能力和灵活性,降低计算成本和存储需求。
  • 海量数据预训练:在包含 8.1 万亿 token 的多样化且高质量语料库上预训练,让模型学习丰富语言知识和模式,掌握不同领域、主题和语言风格特点,提升泛化能力。
  • 强化学习优化:完成预训练后,通过强化学习进一步优化,基于奖励信号调整模型参数,使模型生成结果更符合人类期望和任务目标,提升模型性能和实用性。

4.3、DeepSeek-R1 算法

  • 无监督强化学习:通过无监督强化学习技术改进数据处理方式,无需人工标注数据,模型自动从无监督数据中学习特征和模式,降低数据标注成本,提高数据利用效率,在 MMLU 基准测试中,自生成合成数据质量达人工标注数据的 92%。
  • 稀疏激活特性:具有稀疏激活特性,运行时仅激活部分参数处理输入数据,减少计算量和存储需求,提高模型运行速度和效率,提升输出可信度,达到金融业务合规标准。

4.4、DeepSeek 在算力优化上的算法

  • FP8 精度格式:引入 FP8 精度格式,提高计算效率,在传统计算模式下单卡有效算力仅为 18TFLOPS,通过 FP8 格式应用,算力跃升至 42TFLOPS,降低了硬件成本。
  • 参数效率优化:遵循参数效率高于绝对参数量的原则,其 130B 参数模型在 GSM8K 测试中表现优于传统 340B 模型,注重提升参数利用效率,而非单纯增加参数量来提高模型性能。

五、DeepSeek的使用

DeepSeek 的入口可以通过以下方式:

  • 网页:https://chat.deepseek.com/;
  • App:在各大应用商店搜索 DeepSeek 下载就行,记得认准蓝色鲸鱼 Logo。

在这里插入图片描述

六、本地部署DeepSeek R1模型

本文使用Ollama和Open WebGUI这两个工具在本地部署DeepSeek R1模型;

6.1、安装Ollama

Ollama是一个用于管理和部署机器学习模型的工具。

下载window安装版本ollama :https://ollama.com/download

在这里插入图片描述

在这里插入图片描述

#安装ollama到指定目录
OllamaSetup.exe /DIR="E:\DevelopmentEnvironment\ollama"

安装完成后测试访问:

http://localhost:11434/

在这里插入图片描述

6.2、下载DeepSeek R1模型

通过ollama官网下载deepseek-r1:1.5b模型:
在这里插入图片描述

ollama run deepseek-r1:1.5b

在这里插入图片描述
安装完成后,就可以通过命令行的形式与deepseek-r1进行对话了
在这里插入图片描述

在这里插入图片描述


你独自走过了很多艰难时刻;新的一年你一定要幸福啊!


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/11190.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 梯度下降法(七):Summary

文章目录 Python 梯度下降法(七):Summary一、核心思想1.1 核心思想1.2 优化方法概述1.3 第三方库的使用 二、 BGD2.1 介绍2.2 torch 库算法2.2 代码示例2.3 SGD2.4 SGD代码示例2.5 MBGD2.6 MBGD 代码示例 三、 Adagrad3.1 介绍3.2 torch 库算…

SpringBoot Web开发(SpringMVC)

SpringBoot Web开发(SpringMVC) MVC 核心组件和调用流程 Spring MVC与许多其他Web框架一样,是围绕前端控制器模式设计的,其中中央 Servlet DispatcherServlet 做整体请求处理调度! . 除了DispatcherServletSpringMVC还会提供其他…

Web_php_unserialize

代码审计 <?php class Demo { private $file index.php;public function __construct($file) { $this->file $file; }、 //接收一个参数 $file 并赋值给私有属性 $filefunction __destruct() { echo highlight_file($this->file, true); } //在对象销毁时调用&…

Spring Web MVC基础第一篇

目录 1.什么是Spring Web MVC&#xff1f; 2.创建Spring Web MVC项目 3.注解使用 3.1RequestMapping&#xff08;路由映射&#xff09; 3.2一般参数传递 3.3RequestParam&#xff08;参数重命名&#xff09; 3.4RequestBody&#xff08;传递JSON数据&#xff09; 3.5Pa…

安装anaconda3 后 电脑如何单独运行python,python还需要独立安装吗?

安装anaconda3 后 电脑如何单独运行python&#xff0c;python还需要独立安装吗? 电脑第一此安装anaconda用于jupyter notebook使用。 但是在运行cmd的时候&#xff0c;输入python --version 显示未安装或跳转商店提示安装。 明明我可以运行python但是为什么cmd却说我没安装呢…

分布式事务组件Seata简介与使用,搭配Nacos统一管理服务端和客户端配置

文章目录 一. Seata简介二. 官方文档三. Seata分布式事务代码实现0. 环境简介1. 添加undo_log表2. 添加依赖3. 添加配置4. 开启Seata事务管理5. 启动演示 四. Seata Server配置Nacos1. 修改配置类型2. 创建Nacos配置 五. Seata Client配置Nacos1. 增加Seata关联Nacos的配置2. 在…

使用真实 Elasticsearch 进行高级集成测试

作者&#xff1a;来自 Elastic Piotr Przybyl 掌握高级 Elasticsearch 集成测试&#xff1a;更快、更智能、更优化。 在上一篇关于集成测试的文章中&#xff0c;我们介绍了如何通过改变数据初始化策略来缩短依赖于真实 Elasticsearch 的集成测试的执行时间。在本期中&#xff0…

OpenEuler学习笔记(十四):在OpenEuler上搭建.NET运行环境

一、在OpenEuler上搭建.NET运行环境 基于包管理器安装 添加Microsoft软件源&#xff1a;运行命令sudo rpm -Uvh https://packages.microsoft.com/config/centos/8/packages-microsoft-prod.rpm&#xff0c;将Microsoft软件源添加到系统中&#xff0c;以便后续能够从该源安装.…

基于Python的简单企业维修管理系统的设计与实现

以下是一个基于Python的简单企业维修管理系统的设计与实现&#xff0c;这里我们会使用Flask作为Web框架&#xff0c;SQLite作为数据库来存储相关信息。 1. 需求分析 企业维修管理系统主要功能包括&#xff1a; 维修工单的创建、查询、更新和删除。设备信息的管理。维修人员…

Van-Nav:新年,将自己学习的项目地址统一整理搭建自己的私人导航站,供自己后续查阅使用,做技术的同学应该都有一个自己网站的梦想

嗨&#xff0c;大家好&#xff0c;我是小华同学&#xff0c;关注我们获得“最新、最全、最优质”开源项目和高效工作学习方法 Van-Nav是一个基于Vue.js开发的导航组件库&#xff0c;它提供了多种预设的样式和灵活的配置选项&#xff0c;使得开发者可以轻松地定制出符合项目需求…

Android 音视频编解码 -- MediaCodec

引言 如果我们只是简单玩一下音频、视频播放&#xff0c;那么使用 MediaPlayer SurfaceView 播放就可以了&#xff0c;但如果想加个水印&#xff0c;加点其他特效什么的&#xff0c;那就不行了&#xff1b; 学习 Android 自带的硬件码类 – MediaCodec。 MediaCodec 介绍 在A…

UE 5.3 C++ 对垃圾回收的初步认识

一.UObject的创建 UObject 不支持构造参数。 所有的C UObject都会在引擎启动的时候初始化&#xff0c;然后引擎会调用其默认构造器。如果没有默认的构造器&#xff0c;那么 UObject 将不会编译。 有修改父类参数的需求&#xff0c;就使用指定带参构造 // Sets default value…

使用LLaMA-Factory对AI进行认知的微调

使用LLaMA-Factory对AI进行认知的微调 引言1. 安装LLaMA-Factory1.1. 克隆仓库1.2. 创建虚拟环境1.3. 安装LLaMA-Factory1.4. 验证 2. 准备数据2.1. 创建数据集2.2. 更新数据集信息 3. 启动LLaMA-Factory4. 进行微调4.1. 设置模型4.2. 预览数据集4.3. 设置学习率等参数4.4. 预览…

2025最新源支付V7全套开源版+Mac云端+五合一云端

2025最新源支付V7全套开源版Mac云端五合一云端 官方1999元&#xff0c; 最新非网上那种功能不全带BUG开源版&#xff0c;可以自己增加授权或二开 拥有卓越的性能和丰富的功能。它采用全新轻量化的界面UI&#xff0c;让您能更方便快捷地解决知识付费和运营赞助的难题 它基于…

Linux02——Linux的基本命令

目录 ls 常用选项及功能 综合示例 注意事项 cd和pwd命令 cd命令 pwd命令 相对路径、绝对路径和特殊路径符 特殊路径符号 mkdir命令 1. 功能与基本用法 2. 示例 3. 语法与参数 4. -p选项 touch-cat-more命令 1. touch命令 2. cat命令 3. more命令 cp-mv-rm命…

[EAI-023] FAST,机器人动作专用的Tokenizer,提高VLA模型的能力和训练效率

Paper Card 论文标题&#xff1a;FAST: Efficient Action Tokenization for Vision-Language-Action Models 论文作者&#xff1a;Karl Pertsch, Kyle Stachowicz, Brian Ichter, Danny Driess, Suraj Nair, Quan Vuong, Oier Mees, Chelsea Finn, Sergey Levine 论文链接&…

LeGO LOAM坐标系问题的自我思考

LeGO LOAM坐标系问题的自我思考 总体思考流程IMU坐标系LeGO LOAM代码分析代码 对于IMU输出测量值的integration积分过程欧拉角的旋转矩阵VeloToStartIMU()函数TransformToStartIMU(PointType *p) 总体思考流程 第一页 第二页 第三页 IMU坐标系 在LeGO LOAM中IMU坐标系的形式…

基于VMware的ubuntu与vscode建立ssh连接

1.首先安装openssh服务 sudo apt update sudo apt install openssh-server -y 2.启动并检查ssh服务状态 到这里可以按q退出 之后输入命令 &#xff1a; ip a 红色挡住的部分就是我们要的地址&#xff0c;这里就不展示了哈 3.配置vscode 打开vscode 搜索并安装&#xff1a;…

牛客网 除2!(详解)c++

题目链接&#xff1a;除2&#xff01; 1.题目解析 1&#xff1a;想让数组所有数之和尽可能小&#xff0c;肯定有个想法&#xff0c;就是我每次选数组中偶数的时候&#xff0c;我必定挑一个最大的&#xff0c;因为我挑一个最大的出来&#xff0c;把它变成一半&#xff0c;这个时…

Upscayl-官方开源免费图像AI增强软件

upscayl 链接&#xff1a;https://pan.xunlei.com/s/VOI0Szqe0fCwSSUSS8zRqKf7A1?pwdhefi#