DeepSeek 冲击(含本地化部署实践)

DeepSeek无疑是春节档最火爆的话题,上线不足一月,其全球累计下载量已达4000万,反超ChatGPT成为全球增长最快的AI应用,并且完全开源。那么究竟DeepSeek有什么魔力,能够让大家趋之若鹜,他又将怎样改变世界AI格局和我们的生活,本篇文章将进行简要解析。

DeepSeek与ChatGPT对比

说到人工智能就不得不提OpenAI和ChatGPT,这是绕不开的话题,要分析DeepSeek的实力,最简单的方式就是跟ChatGPT进行对比。

模型分类

ChatGPT目前有两种大模型,分别是面向普通用户,解决日常应用问题的4-OMNI,以及面向专业用户,处理深度思考问题的O1,DeepSeek与之对标的分别是V3模型以及R1模型。





实用效果

据我目前的使用体验下来,DeepSeek的实际体验效果完全不输ChatGPT,甚至在解决数学、物理和推理问题方面表现出色,响应速度比ChatGPT还要快,且能够完整地展示其思考和给出答案的过程,例如最经典的,让绝大多数AI翻车的“1.11和1.9谁大?”的问题,ChatGPT给出的回答是:





前言不搭后语,而反观DeepSeek:

















可以看到DeepSeek不仅给出了正确答案,而且展示了详细的解题思路,甚至有最后的验证。我也测试了许多其他的问题,DeepSeek完全不拉垮,相对于ChatGPT,他在中文领域的问题理解和处理更加到位,使用体验非常好。

这无疑也使得苹果公司柳暗花明又一村,为弥补apple intelligence上在中国区无法使用ChatGPT提供了完美的解决方案。

成本

成本分为两部分:硬件成本和训练成本。AI大模型构建算法绝大部分都是基于公开的论文,所以市场上的大模型,底层逻辑都大同小异,训练数据也来自于互联网,所以主要的成本体现在硬件上,也就是提供AI算力的芯片,自从AI大爆发以来,大家的共识就是堆砌的芯片越多,大模型的表现就越优秀。我先简单介绍一下为什么提升AI的性能就要堆砌大量的芯片。

AI算力的芯片领域是英伟达(Nvidia)一家独大,芯片价格非常昂贵,目前该公司最先进的B200芯片单张的价格就高达4万美金,而且对于AI公司来说你还必须买,因为芯片的产能有限,如果你不抢就会被竞争对手买走,导致你的大模型算力不如他的。





英伟达公司为自家的芯片研发了一种叫CUDA的核心的技术,其全名叫做Compute Unified Device Architecture(统一计算设备架构)。





这是一种并行计算平台和编程模型。开发者通过它,可以间接利用GPU的处理能力,大幅提升计算性能。简单的说,CUDA核心就像是一间间的海水提纯工厂,它可以把如海洋般的GPU算力转换成AI开发者可以直接使用的AI算力,越多的CUDA核心数量就意味着更大的AI算力。





这也就是为什么AI行业越发展,芯片的需求量越大,英伟达的市值就越高。美国也多次通过英伟达“锁算力”以及限制芯片出口,阻碍中国的AI发展。AI行业的发展被一家公司扼住喉咙的现象显然极度不合理,英伟达可谓是真正的万恶之源。

OpenAI不受限制,所以囤积了大量的英伟达芯片,训练ChatGPT据传用到了5万张英伟达的芯片,而DeepSeek作为中国公司,在这方面相比自然相去甚远。

DeepSeek冲击

由于CUDA技术被英伟达牢牢掌握,所以间接提高了所有AI大模型的使用成本,阻碍了AI的发展。以ChatGPT为例,4-OMNI和O1两个大模型的研发成本高达数十亿美金,免费用户使用有诸多限制,付费用户每月20美金,专业用户每月200美金,如果企业想要接入OpenAI的人工智能服务,调用API做客服等用途,则更是按字符收费,虽然比人工客服省钱,但也是一笔不小的开销。这些收入中,绝大多数都是用来平衡购买芯片带来的巨大成本。

DeepSeek之所以引起全球瞩目,就是因为他在“芯片”受限的前提下,达到了与ChatGPT近似的使用体验,甚至在某些领域还远远超过了。OpenAI和它的母公司微软囤积了大量的高端芯片,而DeepSeek手里的芯片,不论从数量还是质量上都不占优势,甚至可以说远远落后。

在深度解析DeepSeek开源的模型代码之后,研究人员发现,DeepSeek之所以能够绝地反击,秘诀就在于他绕过了CUDA核心的限制,使用了完全创新的技术训练大模型,直接利用英伟达的底层技术调用了GPU的算力,相当于能直接使用如大海般的GPU资源,所以才能使用低端的芯片,在极短的时间内完成了模型的训练,达到了与ChatGPT近似的效果。

而且此技术成功解除了AI模型对英伟达芯片的依赖,使DeepSeek可以使用华为的芯片进行训练。DeepSeek服务调用的费用只有ChatGPT的十分之一,具有非常高的性价比和广阔的应用前景。

整体来说,DeepSeek用了很少的钱,很低端的工具,就把美国投入上百亿美元的事给办了。自从DeepSeek爆火之后,市场普遍认为英伟达的芯片估值过高,要实现高性能的AI并不需要如此之贵的芯片,最高端的芯片也并不值那个价钱,这直接导致英伟达的股价当天就暴跌17%,创造了美国股市历史上单日最大跌幅,截至目前英伟达市值蒸发近6000亿美元。

技术曝光的第二天,英伟达,微软和亚马逊的计算平台都宣布接入DeepSeek模型,堪称AI界的“斯普特尼克时刻”,就如同当年苏联率先成功发射人造卫星时一样,让一直以为自己在技术上遥遥领先的西方世界陷入了一片混乱,世界AI市场的格局就此改变。

本地化部署R1模型

DeepSeek虽然好,但是用过的同学都知道他有个致命的问题,就是万恶的资本主义经常组织针对DeepSeek的网络攻击,导致使用时出现“服务器繁忙的问题”。





为了避免被攻击,降低延迟和卡顿,规避共享敏感信息的风险,同时更灵活的进行微调和实验,我们可以把R1模型部署到本地。

安装Ollama

首先登陆Ollama官网:https://ollama.com/。打开官网,然后点击下载,之后安装到本地。





拉取 DeepSeek R1 模型

然后打开Ollama 的模型列表: https://ollama.com/library/deepseek-r1 ,搜索到DeepSeek R1:





显卡需求

各个模型版本需求的显卡档次大致如下表

模型(DeepSeek-R1)显卡档次显存需求
1.5bGTX1050以上1GB
7bRTX2050、RTX3060以上4GB
8bRTX2060、RTX3070以上5GB
14bRTX3080、RTX4070以上8GB
32bRTX4080以上18GB
70bRTX4090、RTX5080以上36GB以上

我们普通的电脑安装1.5B,7B就可以使用,然后在【右上角的的代码】复制,打开终端,输入上述下载命令回车后,会出现模型下载进度,当进度为100%就说明该模型已经下载到本地了。





输入ollama list可以查看安装的模型。





此时已经可以在控制台使用R1模型进行问答了。

包装GUI

只能在命令行中使用既不美观也特别的不方便,所以我们可以使用现成的GUI进行包装,相当于包上图形用户界面。这里以Cherry Studio为例,下载对应版本后打开。





在设置中选择模型服务,选中Ollama





填入对应的本地模型信息:





然后就可以使用了!希望本篇文章能够帮到大家!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21836.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

卷积与动态特征选择:重塑YOLOv8的多尺度目标检测能力

文章目录 1. YOLOv8的网络结构概述2. 添加注意力机制2.1 为什么添加注意力机制?2.2 如何将注意力机制集成到YOLOv8中?2.3 效果分析 3. C2f模块的集成3.1 C2f模块简介3.2 如何在YOLOv8中集成C2f模块?3.3 效果分析 4. 卷积操作的优化4.1 卷积操…

鸿蒙-验证码输入框的几种实现方式-上

文章目录 效果图、优缺点多TextInput多 TextCanvas 绘制 多个 TextInput 拼接放置四个输入框焦点移动输入时向后移动输入完成回调删除时向前移动 防止点击总结 最近在做应用鸿蒙化,说白了就是把原来Android、iOS的代码重新用ArkTS写一遍,我负责基础建设和…

谈谈对线程的认识

面对这样的一个多核CPU时代, 实现并发编程是刚需. 多进程实现并发编程, 效果是特别理想的. 但是, 多线程编程模型有一个明显的缺点, 就是进程太重了, 效率不高. 创建一个进程, 消耗时间比较多. 销毁一个进程, 消耗时间也比较多. 调度一个进程, 消耗时间也比较多. 这里的时…

MySQL的数据类型

4. 数据类型 4.1 数据类型分类4.2 数值类型4.2.1 tinyint类型4.2.2 bit类型4.2.3 小数类型4.2.3.1 float4.2.3.2 decimal 4.3 字符串类型4.3.1 char4.3.2 varchar4.3.3 char和varchar比较 4.4 日期和时间类型enum和set 4.1 数据类型分类 4.2 数值类型 4.2.1 tinyint类型 数值越…

回不去的乌托邦

回不去的乌托邦 坐在电脑面前愣神间已至深夜,依然睡意不起。 相比于带着疲惫入睡,伏案发呆更令人惬意。想起最近在自媒体上看到的一句话“最顶级的享受变成了回不去的乌托邦”。 “这是兄弟们最后一次逛校园了,我拍个照”。我的记忆力总是用在…

分布式与集群,二者区别是什么?

??分布式 分布式系统是由多个独立的计算机节点组成的系统,这些节点通过网络协作完成任务。每个节点都有自己的独立计算能力和存储能力,可以独立运行。分布式系统的目标是提高系统的可靠性、可扩展性和性能。 分布式服务包含的技术和理论 负载均衡&am…

<02.21>八股文

JAVA基础 次数少了用解释性 次数多了用编译性(JIT) 操作系统

logging-operator 部署fluentd-bit日志报kubernetes链接错误

一、背景: 某项目使用logging-operator部署fluentd-bit进行日志采集,发现启动的fluentd-bit有大量的的链接kubernetes报错。 二、排查过程 1、排查fluentd容器到kubernetes api server的联通性,进入容器中curl kubernetes.default.svc.local:…

Redis数据结构-String字符串

1.String字符串 字符串类型是Redis中最基础的数据结构,关于数据结构与要特别注意的是:首先Redis中所有的键的类型都是字符串类型,而且其他集中数据结构也都是在字符串类似基础上进行构建,例如列表和集合的元素类型是字符串类型&a…

基于Django的购物商城平台的设计与实现(源码+lw+部署文档+讲解),源码可白嫖!

摘要 当今社会进入了科技进步、经济社会快速发展的新时代。国际信息和学术交流也不断加强,计算机技术对经济社会发展和人民生活改善的影响也日益突出,人类的生存和思考方式也产生了变化。传统购物管理采取了人工的管理方法,但这种管理方法存…

Unity结合Vuforia虚拟按键实现AR机械仿真动画效果

零、最终效果 待上传 一、资源准备 1、Vuforia Vuforia版本不能高于10.17.4(往上的版本虚拟按键功能被删除) 2、Unity Unity版本必须要高于2022.3.x,不然使用Vuforia插件时会出现bug 二、主要内容 1、添加虚拟按钮 2、为虚拟按钮设置…

MATLAB在投资组合优化中的应用:从基础理论到实践

引言 投资组合优化是现代金融理论中的核心问题之一,旨在通过合理配置资产,实现风险与收益的最佳平衡。MATLAB凭借其强大的数学计算能力和丰富的金融工具箱,成为投资组合优化的理想工具。本文将详细介绍如何使用MATLAB进行投资组合优化&#…

Day15-后端Web实战-登录认证——会话技术JWT令牌过滤器拦截器

目录 登录认证1. 登录功能1.1 需求1.2 接口文档1.3 思路分析1.4 功能开发1.5 测试 2. 登录校验2.1 问题分析2.2 会话技术2.2.1 会话技术介绍2.2.2 会话跟踪方案2.2.2.1 方案一 - Cookie2.2.2.2 方案二 - Session2.2.2.3 方案三 - 令牌技术 2.3 JWT令牌2.3.1 介绍2.3.2 生成和校…

【实战篇】【深度介绍 DeepSeek R1 本地/私有化部署大模型常见问题及解决方案】

引言 大家好!今天我们来聊聊 DeepSeek R1 的本地/私有化部署大模型。如果你正在考虑或者已经开始了这个项目,那么这篇文章就是为你准备的。我们会详细探讨常见问题及其解决方案,帮助你更好地理解和解决在部署过程中可能遇到的挑战。准备好了…

大模型本地部署及本地知识库构建

1、引言 随着AI技术的快速发展和普及,越来越多的LLM开始开源,若想在本地尝试部署大模型和搭建知识库,可以使用ollamaLLMscherry Studio nomic-embed-text的框架来实现,以便于对AI简单应用流程的整体了解。本地部署和知识库的搭建…

在 Ansys Motion 中创建链式伸缩臂的分步指南

介绍 链传动在负载和/或运动要远距离传递的机器中非常多产,例如,在两个平行轴之间。链条驱动系统的设计需要了解载荷传递和运动学如何影响链条张力、轴轴承中的悬臂载荷、轴应力和运动质量等。使用 Ansys Motion,可以轻松回答上述所有问题以…

blender笔记2

一、物体贴地 物体->变换->对齐物体 ->对齐弹窗(对齐模式:反方,相对于:场景原点,对齐:z)。 之后可以设置原点->原点--3d游标 二、面上有阴影 在编辑模式下操作过后,物体面有阴影。 数据-&g…

SPRING10_SPRING的生命周期流程图

经过前面使用三大后置处理器BeanPostProcessor、BeanFactoryPostProcessor、InitializingBean对创建Bean流程中的干扰,梳理出SPRING的生命周期流程图如下

光子集成电路加速边缘AI推理:突破传统NPU的能效比极限

引言:边缘计算的能耗困局 某领先自动驾驶公司采用128核光子张量处理器后,激光雷达点云处理能效比达458TOPS/W,是传统车规级GPU方案的57倍。在16线束LiDAR实时语义分割任务中,光子矩阵乘法单元将特征提取延迟从8.3ms降至0.12ms&am…