【DeepSeek】DeepSeek概述 | 本地部署deepseek

目录

1 -> 概述

1.1 -> 技术特点

1.2 -> 模型发布

1.3 -> 应用领域

1.4 -> 优势与影响

2 -> 本地部署

2.1 -> 安装ollama

2.2 -> 部署deepseek-r1模型


1 -> 概述

DeepSeek是由中国的深度求索公司开发的一系列人工智能模型,以其高效的性能和低成本的训练而受到关注。以下是其主要介绍:

1.1 -> 技术特点

  • 混合专家架构(MoE):DeepSeek-V3采用MoE架构,总参数达6710亿,但每个输入只激活370亿参数,通过动态冗余策略,在推理和训练过程中保持最佳的负载平衡,大大降低了计算成本,同时保持高性能。
  • 多头潜在注意力(MLA):引入多头潜在注意力机制,通过低秩联合压缩机制,将Key-Value矩阵压缩为低维潜在向量,显著减少内存占用。
  • 无辅助损失负载均衡:采用无辅助损失负载均衡策略,最小化因鼓励负载均衡而导致的性能下降。
  • 多Token预测(MTP):采用多Token预测目标,证明其对模型性能有益,并可用于推理加速。
  • FP8混合精度训练:设计了FP8混合精度训练框架,首次验证了在极大规模模型上进行FP8训练的可行性和有效性。
  • 知识蒸馏:DeepSeek-R1通过知识蒸馏,将长链推理(CoT)模型的推理能力蒸馏到标准LLM中,显著提升了推理性能。

1.2 -> 模型发布

  • DeepSeek-V3:2024年12月发布,总参数达6710亿,采用创新的MoE架构和FP8混合精度训练,训练成本仅为557.6万美元,在聊天机器人竞技场(Chatbot Arena)上排名第七,在开源模型中排名第一,是全球前十中性价比最高的模型。
  • DeepSeek-R1:2025年1月发布,性能与OpenAI的o1正式版持平,并开源,在Chatbot Arena综合榜单上排名第三,与OpenAI的o1并列,在高难度任务上表现出色。
  • Janus-Pro:2025年1月28日发布,分为7B(70亿)和1.5B(15亿)两个参数量版本,且均为开源,在多模态理解和文本到图像的指令跟踪功能方面取得重大进步,同时增强了文本到图像生成的稳定性,在多项基准测试中表现出色,甚至强于OpenAI旗下的DALL-E 3,以及Stable Diffusion。

1.3 -> 应用领域

  • 自然语言处理:能够理解并回答用户的问题,进行文本生成、翻译、摘要等任务,可用于智能客服、内容创作、信息检索等领域。
  • 代码生成与调试:支持多种编程语言的代码生成、调试和数据分析任务,帮助程序员提高工作效率。
  • 多模态任务:如Janus-Pro模型可进行文生图、图生文等多模态任务,在图像生成、图像理解等方面有应用潜力。

1.4 -> 优势与影响

  • 成本效益高:通过算法优化和架构创新,在保证性能的前提下,大幅降低了训练和推理成本,使AI技术更易于普及和应用。
  • 开源策略:采用完全开源策略,吸引了大量开发者和研究人员的关注,促进了AI社区的协作和技术的快速发展。
  • 推动行业变革:DeepSeek的成功挑战了传统的“大力出奇迹”的AI发展模式,为行业提供了新的发展思路和方向,激发了更多的创新和探索。

2 -> 本地部署deepseek

2.1 -> 安装ollama

ollama官网

  • 点击Download下载 

  • 选择对应的操作系统,本次以Windows操作系统为例

点击Download for Windows下载。 

  • 下载完成后,打开文件开始安装OllamaSetup

  • 点击Install开始下载,等待下载完成

  • 检查是否安装成功

win+R输入cmd调出命令行进入到命令模式,输入命令ollama -v查看是否安装成功,输入完命令出现了版本号的话就说明安装成功。

2.2 -> 部署deepseek-r1模型

  • 回到ollama官网点击左上角的Models进入如下界面。并选择第一个deepseek-r1,点击进入

  • 选择适合自己电脑配置的版本

  • 选择好后,复制对应版本后的命令

  • win+R输入cmd调出命令行进入到命令模式,输入命令

如果觉得下载速度慢,可以Ctrl+C先退出这个命令,然后再输入命令重新进行下载,还是会接着上次的下载进度继续下载,速度会稍微快一些。

  • 下载完成后会出现success,接下来就可以进行对话了

  • 问一个AI经常会出错的问题:9.11和9.9哪个大

可以看到,会给出思考过程以及最终结论。 

  • 输入命令/bye可以退出对话

  • 输入命令ollama list可以查看下载好的模型

  • 输入ollama run + 对应的模型就可以进入对话

 这里输入ollama run deepseek-r1:latest可以发现再一次进入对话。

这样本地部署deepseek就算完成啦


感谢各位大佬支持!!!

互三啦!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15287.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows下AMD显卡在本地运行大语言模型(deepseek-r1)

Windows下AMD显卡在本地运行大语言模型 本人电脑配置第一步先在官网确认自己的 AMD 显卡是否支持 ROCm下载Ollama安装程序模型下载位置更改下载 ROCmLibs先确认自己显卡的gfx型号下载解压 替换替换rocblas.dll替换library文件夹下的所有 重启Ollama下载模型运行效果 本人电脑配…

使用Pytorch训练一个图像分类器

一、准备数据集 一般来说,当你不得不与图像、文本或者视频资料打交道时,会选择使用python的标准库将原始数据加载转化成numpy数组,甚至可以继续转换成torch.*Tensor。 对图片而言,可以使用Pillow库和OpenCV库对视频而言&#xf…

DeepSeek之Api的使用(将DeepSeek的api集成到程序中)

一、DeepSeek API 的收费模式 前言:使用DeepSeek的api是收费的 免费版: 可能提供有限的免费额度(如每月一定次数的 API 调用),适合个人开发者或小规模项目。 付费版: 超出免费额度后,可能需要按…

git fetch和git pull 的区别

git pull 实际上就是 fetch merge 的缩写, git pull 唯一关注的是提交最终合并到哪里(也就是为 git fetch 所提供的 destination 参数) git fetch 从远程仓库下载本地仓库中缺失的提交记录,并更新远程分支指针 git pull抓取更新再合并到本地分支,相当于…

信息科技伦理与道德3-2:智能决策

2.2 智能推荐 推荐算法介绍 推荐系统:猜你喜欢 https://blog.csdn.net/search_129_hr/article/details/120468187 推荐系统–矩阵分解 https://blog.csdn.net/search_129_hr/article/details/121598087 案例一:YouTube推荐算法向儿童推荐不适宜视频 …

[LVGL] 在VC_MFC中移植LVGL

前言: 0. 在MFC中开发LVGL的优点是可以用多个Window界面做辅助扩展【类似GUIguider】 1.本文基于VC2022-MFC单文档框架移植lvgl8 2. gitee上下载lvgl8.3 源码,并将其文件夹改名为lvgl lvgl: LVGL 是一个开源图形库,提供您创建具有易于使用…

[RabbitMQ] RabbitMQ常见面试题

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏: 🧊 Java基本语法(97平均质量分)https://blog.csdn.net/2301_80050796/category_12615970.html?spm1001.2014.3001.5482 🍕 Collection与…

《qt easy3d中添加孔洞填充》

《qt easy3d中添加孔洞填充》 效果展示一、创建流程二、核心代码效果展示 参考链接Easy3D开发——点云孔洞填充 一、创建流程 创建动作,并转到槽函数,并将动作放置菜单栏,可以参考前文 其中,槽函数on_actionHoleFill_triggered实现如下:

Git(分布式版本控制系统)系统学习笔记【并利用腾讯云的CODING和Windows上的Git工具来实操】

Git的概要介绍 1️⃣ Git 是什么? Git 是一个 分布式版本控制系统(DVCS),用于跟踪代码的变更、协作开发和管理项目历史。 由 Linus Torvalds(Linux 之父)在 2005 年开发,主要用于 代码管理。…

基于SpringBoot的校园社交平台

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

R语言LCMM多维度潜在类别模型流行病学研究:LCA、MM方法分析纵向数据

全文代码数据:https://tecdat.cn/?p39710 在数据分析领域,当我们面对一组数据时,通常会有已知的分组情况,比如不同的治疗组、性别组或种族组等(点击文末“阅读原文”获取完整代码数据)。 然而,…

mysql 主从配置

MySQL 主从复制是指在 MySQL 数据库系统中,主服务器(Master)将数据更新操作(如 INSERT、UPDATE、DELETE)复制到从服务器(Slave)。主从复制实现了数据的同步复制,使得从服务器可以保持…

DeepSeek为何能爆火

摘要:近年来,DeepSeek作为一款新兴的社交媒体应用,迅速在年轻人群体中走红,引发了广泛关注。本文旨在探讨DeepSeek为何能在短时间内爆火,从而为我国社交媒体的发展提供参考。首先,通过文献分析,…

黑马React保姆级(PPT+笔记)

一、react基础 1.进程 2、优势 封装成一个库,组件化开发更加方便 跨平台主要是react native等可以来写移动端如android,ios等 丰富生态:可以在很多浏览器用 3、市场 4、搭建脚手架 npx create-react-app react-basic npm start后仍然可能…

STM32 CUBE Can调试

STM32 CUBE Can调试 1、CAN配置2、时钟配置3、手动添加4、回调函数5、启动函数和发送函数6、使用方法(采用消息队列来做缓存)7、数据不多在发送函数中获取空邮箱发送,否则循环等待空邮箱 1、CAN配置 2、时钟配置 3、手动添加 需要注意的是STM32CUBE配置的代码需要再…

DeepSeek从入门到精通:全面掌握AI大模型的核心能力

文章目录 一、DeepSeek是什么?性能对齐OpenAI-o1正式版 二、Deepseek可以做什么?能力图谱文本生成自然语言理解与分析编程与代码相关常规绘图 三、如何使用DeepSeek?四、DeepSeek从入门到精通推理模型推理大模型非推理大模型 快思慢想&#x…

【vscode+latex】实现overleaf本地高效编译

overleaf本地高效编译 1. 配置本地latex环境2. vscode插件与配置3. 使用 之前觉得用overleaf在线写论文很方便,特别是有辅助生成latex格式公式的网页,不需要在word上一个一个手打调格式。 然而,最近在写一篇论文的时候,由于这篇论…

Spring AI -使用Spring快速开发ChatGPT应用

前言 Spring在Java生态中一直占据大半江山。最近我发现Spring社区推出了一个Spring AI项目,目前该项目还属于Spring实验性项目,但是我们可以通过该项目,可以非常快速的开发出GPT对话应用。 本篇文章将会对SpringAI进行简单的介绍和使用&#…

XILINX硬件设计-(1)LVDS接口总结

1.LVDS差分信号电路原理 LVDS指的是低压差分信号,是一种电平标准。 差分信号在串行通信中有着非常广泛的应用,典型应用有PCIE中的gen1,gen2,gen3,gen4,gen5,SATA接口,USB接口等。 …

保姆级教程Docker部署Zookeeper模式的Kafka镜像

目录 一、安装Docker及可视化工具 二、Docker部署Zookeeper 三、单节点部署 1、创建挂载目录 2、命令运行容器 3、Compose运行容器 4、查看运行状态 5、验证功能 四、部署可视化工具 1、创建挂载目录 2、Compose运行容器 3、查看运行状态 一、安装Docker及可视化工…