【大模型】蓝耘智算平台部署DeepSeek-R1大模型使用详解

目录

一、前言

二、蓝耘智算平台介绍

2.1 蓝耘智算平台是什么

2.2 平台优势

2.3 应用场景

2.4 对DeepSeek 的支持

2.4.1 DeepSeek 简介

2.4.2 DeepSeek 优势

三、蓝耘智算平台部署DeepSeek-R1操作过程

3.1 注册账号

3.1.1 余额检查

3.2 部署DeepSeek-R1

3.2.1 获取DeepSeek-R1模型

3.2.2 应用介绍与说明

3.2.3 应用部署

3.2.4 启动应用

3.2.5 效果体验

3.2.6 模型切换

3.3 文档对接

四、写在文末


一、前言

近期随着DeepSeek的热度持续走高,让AI圈也变得异常热闹,而DeepSeek-R1模型凭借其卓越技术优势,成为众多开发者和研究者的探索焦点。DeepSeek 作为一款强大的语言模型,在文本生成、知识问答等领域展现出了卓越的性能。各大厂商也纷纷开始推出便捷快速的与DeepSeek的接入方案,从而降低使用DeepSeek的成本,缩短应用开发者与DeepSeek的距离。而在这些对接的平台中,蓝耘智算平台则为我们提供了便捷、高效的计算资源,让我们能够轻松地使用 DeepSeek 进行各种任务的处理,本文将详细介绍如何在蓝耘智算平台上使用 DeepSeek的完整过程。

二、蓝耘智算平台介绍

2.1 蓝耘智算平台是什么

蓝耘智算平台是一个现代化的、基于Kubernetes的云平台,专为大规模GPU加速工作负载而构建。该平台旨在为工程师、创新者和科研工作者提供无与伦比的计算解决方案,其速度可比传统云服务提供商快35倍,成本降低30%,快速入口:lanyun.net

针对大模型训练场景,蓝耘算力云平台将运行环境、模型、 训练框架等打包到容器中,并通过定制化Kubernetes容器 、编排工具进行容器调度、管理和扩展,可以解决开发环境设置以及运维和管理问题,让算法工程师能够使用统一 的环境模板进行开发,免除了初期大量的开发环境设置, 以及在新的环境中管理新的算力资源的问题,为用户提供 开箱即用的大模型训练、推理平台。 除此之外,针对大模型训练中遇到的容器进程死机、大规 模分布式训练中GPU驱动丢失、GPU硬件损坏、甚至是计 算节点宕机等难题,都做了定制化设计,为以上难题提供 了自动化调度和强大的自愈能力,实现了更高的开发和训 练效率以及整体资源利用率。

2.2 平台优势

蓝耘智算平台的核心优势包括:

  • 高性能计算能力:

    • 平台基于行业领先的灵活基础设施和大规模GPU算力资源,能够提供开放、高性能、高性价比的算力云服务

  • 基础设施灵活

    • 平台基于行业领先的灵活基础设施构建,用户可以根据实际需求动态调整资源,实现资源的高效利用和成本的合理控制。

  • 全场景覆盖:

    • 从数据准备、代码开发、模型训练到推理部署等全场景覆盖,支持从AI开发到部署的全流程

  • 生态体系完善:

    • 平台集应用市场、预训练大模型、数据集管理、AI开发工具、模型镜像等功能于一体,致力于构建一个充满活力的AI社区平台;

  • 现代化的云平台架构

    • 蓝耘智算平台采用Kubernetes作为核心容器编排技术,构建了一个现代化的云平台架构。这确保了平台的高可用性、可扩展性和易管理性

  • 易于使用和管理

    • 平台提供直观的用户界面和强大的管理工具,使得用户可以轻松地进行资源申请、任务调度和监控管理,降低了使用门槛和管理成本。

  • 丰富的服务选项

    • 蓝耘智算平台提供多种服务选项,包括计算服务、存储服务、网络服务等,用户可以根据实际需求选择合适的服务组合,满足多样化的应用场景需求。

  • 安全性高

    • 蓝耘智算平台注重数据安全,采用多种安全措施保障用户数据的安全性和隐私性,包括数据加密、访问控制、安全审计等。

2.3 应用场景

蓝耘智算平台的应用场景包括但不限于:

  • 机器学习:提供高性能计算资源,加速模型训练和推理过程。

  • 视觉渲染:支持复杂的图形处理任务,如电影特效、建筑设计可视化等。

  • 批处理:处理大量数据和计算任务,适用于大数据分析和科学计算。

  • 科研创新:为科研工作者提供高性能计算环境,加速科研项目的进展。

蓝耘智算平台的注册使用流程简单直观,用户可以根据需求选择公有云、私有化部署或按年度订阅的服务模式。对于中小型商业客户和AIGC开发者,平台提供弹性算力服务,用户按需购买或订阅资源;对于大型企业用户,平台支持内部私有化部署,确保数据安全和性能要求

2.4 对DeepSeek 的支持

2.4.1 DeepSeek 简介

DeepSeek 是字节跳动旗下云雀模型团队基于 Transformer 架构开发的新一代开源大语言模型,以其强大的语言理解与生成能力在自然语言处理领域崭露头角。快速入口:DeepSeek

  • 在模型架构上,DeepSeek 创新性地优化了 Transformer 架构,大幅提升了模型的学习效率和性能表现。它能够更高效地处理和分析大规模文本数据,从而为各类自然语言处理任务提供坚实的基础。在预训练阶段,DeepSeek 在海量的文本数据上进行了深度训练,涵盖新闻资讯、学术论文、文学作品、社交媒体等丰富多样的数据源,使其具备了广泛的知识储备和强大的语言理解能力。

  • 在多种自然语言处理任务中都展现出卓越的性能。在文本生成方面,无论是创作故事、撰写文章还是生成对话,它都能生成连贯、富有逻辑且语义准确的文本;在智能问答任务中,DeepSeek 能快速理解问题含义,并从海量知识中提取准确答案;在文本分类、情感分析等任务中,也能凭借其精准的理解能力给出可靠的结果。

  • 此外,DeepSeek具备高度的可定制性和扩展性。开发者可以根据自身需求对模型进行微调,使其更好地适应特定领域或任务,从而为不同行业的应用提供了极大的便利。凭借这些优势,DeepSeek 在智能客服、内容创作、智能写作辅助、信息检索等领域有着广泛的应用前景,正助力各行业在自然语言处理领域取得新的突破 。

2.4.2 DeepSeek 优势

DeepSeek 与其他大语言模型相比,具有以下独特优势:

  • 技术架构方面

    • 混合专家架构优势:

      • 采用混合专家(MoE)架构,如 DeepSeek-V3 能通过路由机制按需激活专家处理任务。相比传统大模型,避免了不必要的计算,减少了计算量和内存消耗4。还可根据输入数据特性和不同任务,动态选择最合适的专家,灵活分配计算资源,优化处理效率4。

    • 指令集创新:

      • 采用 PTX 指令集,与 NVIDIA 的 CUDA 不同,PTX 可与 GPU 驱动函数直接交互,开发者能进行更深层次的硬件操作和定制,极大提高运行效率。

  • 性能表现方面

    • 推理与计算能力突出:

      • 在编程任务中,DeepSeek-V3 的通过率较高,在数学推理任务中,超过了大部分开源和闭源模型,展示出强大的问题解决能力。

    • 多语言理解出色:

      • 作为中国团队开发的模型,更符合中文语言习惯和文化背景5。在中文多语言理解测试中得分较高,远超 Llama 3.14。

    • 生成速度快:

      • DeepSeek-V3 支持多单词预测,生成效率提升了 3 倍,从原本每秒 20 个 token 的生成速率提升至 60 个 token,能更迅速高效地处理大规模文本生成任务。

    • 多模态处理能力强

      • DeepSeek-VL 能够在不丢失语言能力的情况下处理多种类型的数据,包括逻辑图、网页、公式识别、科学文献、自然图像等,还能接受高达 1024x1024 的大尺寸分辨率图片输入,提高了对细节的识别能力。

  • 成本与资源利用方面

    • 训练成本低

      • DeepSeek-V3 的训练成本仅为 557 万美元,远低于 GPT-4 的约 1 亿美元以及 Meta 的 Llama 3.1 的 5 亿美元,在计算资源和硬件资源上的利用效率更高。

    • 推理成本优势

      • DeepSeek 的使用成本为 0.0012 美元 / 千 token,成本效益优势明显,对于资源有限的企业或研究团队更具吸引力。

  • 开源与生态方面

    • 开源与商用授权

      • 提供开源商用授权政策,允许开发者自行部署、训练、微调和应用模型,为开发者和研究者提供了技术支持。

    • 对开发者友好

      • 开源使开发者能够根据自己的需求调整和改进模型,在大规模分布式系统上部署时,能更好地掌控资源和计算效率,有效吸引开发者参与优化和定制,利于形成活跃的开发社区和丰富的应用生态。

三、蓝耘智算平台部署DeepSeek-R1操作过程

如何基于蓝耘智算平台快速使用DeepSeek呢,接下来看详细的操作过程。

3.1 注册账号

注册/登录入口:蓝耘元生代智算云平台

登录之后进入到下面的主页

3.1.1 余额检查

新用户首次注册并登录之后,平台默认会赠送一定额度的代金券,代金券可用于使用平台进行大模型的部署使用,跟其他类似的平台做法类似,如果代金券的额度消耗完毕,则需要充值。

3.2 部署DeepSeek-R1

3.2.1 获取DeepSeek-R1模型

进入应用市场之后,可以看到展现在首页第一个就是deepseek-r1模型,们这里以第一个模型deepseek-r1_1.5b_7b_8b进行举例,当然左侧还有很多其他类型的大模型,可以根据自己的需要进行选择。

3.2.2 应用介绍与说明

DeepSeek在R1模型的基础上,使用Qwen和Llama蒸馏了几个不同大小的模型,适配目前市面上对模型尺寸的最主流的几种需求。Qwen和Llama系列模型架构相对简洁,并提供了高效的权重参数管理机制,适合在大模型上执行高效的推理能力蒸馏。蒸馏的过程中不需要对模型架构进行复杂修改 ,减少了开发成本。【默认账号:lanyunuser@lanyun.net 密码:lanyunuser】

3.2.3 应用部署

进入当前模型的应用详情之后,点击右侧的部署

弹出下面的参数选择框

这里选择按量计费,用多少算多少,GPU的型号选择默认的RTX 4090,由于是云上部署,就算自己的电脑配置不是这个,我们依旧可以在这个平台来体验这个4090显卡,选择好之后点击这个立即购买就行了

然后跳转到下面的实例创建页面

创建完成后,注意保管好下面这两个配置信息,后续可能用得上

如果开启的应用实例暂时不用了,可以点击关机,避免一直消耗账户的额度费用

3.2.4 启动应用

上述部署完成之后,点击右侧的快速启动应用,跳转到下面的登录页面,使用上文中的账号和密码进行登录

  • 账号:lanyunuser@lanyun.net

  • 密码:lanyunuser

登录成功后,来到下面的页面,即可视化对话页面

3.2.5 效果体验

到上面这一步,应用就算搭建完成后,下面来问几个问题,体验下效果如何。

问题1:

  • 你是一个资深导游,在预算不超过2000的情况下,为我设计一个桂林3日游攻略

问题2:

  • 写一篇AI技术发展的文章,面向的群体为大学生,不超过500字

问题3:

  • 你是一个DBA专家,为我提供mysql常用的优化技巧

体验小结

总的来说,使用这种方式部署deepseek在提问来看,回答的流畅性、回答质量来说还是基本可以满足使用者要求的,比起本地直接部署大模型高昂的配置成本,值得一试

3.2.6 模型切换

在当前的web体验控制台顶部,还可以根据实际需要手动切换模型,如下

3.3 文档对接

如果你要基于你部署的deepseek应用进行本地的代码开放,平台也提供了相应的文档可以参考使用,入口:快速入门 | GPU智算云平台文档中心

四、写在文末

本文通过操作演示详细介绍了如何基于蓝耘智算平台快速部署DeepSeek-R1大模型的完整步骤,当然,更多的功能还可以解锁,有兴趣的同学可以在此基础上继续深入研究,本篇到此结束,感谢观看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22900.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

本地部署deepseek-r1 ollama+anythingllm

本期笔者带给大家部署一个本地私有化知识库,简单明了,直接步入主题,需要读者可以继续关注支持一下啊! 目录 背景步骤 一、环境准备二、Ollama环境部署三、AnythingLLM安装 总结 开始下载应用: 操作系统&#xff1a…

VSCode ssh远程连接内网服务器(不能上网的内网环境的Linux服务器)的终极解决方案

VSCode ssh远程连接内网服务器(不能上网的内网环境的Linux服务器) 离线下载vscode-server并安装: 如果远程端不能联网可以下载包离线安装,下载 vscode-server 的 url 需要和 vscode 客户端版本的 commit-id 对应.通过 vscode 面板的帮助->关于可以获…

计算机视觉算法实战——三维重建(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​ 1. 三维重建领域简介 三维重建(3D Reconstruction)是计算机视觉的核心任务之一,旨在通过多视角图像、视频…

十、OSG学习笔记-多线程(OpenThreads)

上一节内容: 九、OSG学习笔记-NodeVisitor节点遍历器-CSDN博客https://blog.csdn.net/weixin_36323170/article/details/145742756?spm1001.2014.3001.5501 本章节代码: OsgStudy/Openthreads CuiQingCheng/OsgStudy - 码云 - 开源中国https://gite…

AI颠覆蛋白质工程:ProMEP零样本预测突变效应

概述 在生命科学的“造物革命”中,蛋白质工程一直面临着“试错成本”与“设计效率”的双重挑战——传统方法依赖繁复的多序列比对(MSA)或耗时的实验室筛选,如同在浩瀚的蛋白质宇宙中盲选星辰。而今日,一项发表于《Cel…

计算机领域里注重实战的9本书

计算机领域注重实战的书籍众多,以下是一些备受推崇的注重实战的计算机书籍: 1、Redis实战 当你需要以接近实时的速度访问快速变动的数据流时,Redis这样的键值数据库就是你的极好选择。通过接纳散列、字符串、列表等多种数据类型,…

《2024工业控制系统网络安全态势白皮书》

一、白皮书发布背景 东北大学“谛听”网络安全团队近日撰写并发布了2024年工业控制网络安全态势白皮书,读者可以通过报告了解2024年工控安全相关政策法规报告及典型工控安全事件分析。 二、白皮书主要内容 报告对工控系统漏洞、联网工控设备、工控蜜罐与威胁情报…

【VSCode】MicroPython环境配置

【VSCode】MicroPython环境配置 RT-Thread MicroPython 插件安装MicroPython 库文件配置结束语 RT-Thread MicroPython 插件安装 在 VSCode 拓展中搜索 “RT-Thread MicroPython” 并安装,详细配置步骤(修改 VSCode 默认终端、MicroPython 代码补全&…

如何在VMware虚拟机的window10系统中安装网易mumu模拟器

安卓模拟器是可以在电脑的windows环境中运行手机软件的工具,喜欢网游或者是要逆向安卓应用应该都要安装这个模拟器,如果要模拟器正常工作,主机的虚拟化应该开启,也就是要开启vt。在有些情况下,需要把模拟器安装到电脑的虚拟机里,隔离模拟器与主机,这时vt的开启就稍麻烦些…

Mac本地部署DeepSeek-r1

一、安装DeepSeek 1.1 安装ollama模型管理器 ollama官网下载安装包:https://ollama.com/ 看到mac右上方工具图标出现小羊驼,表示ollama已经安装成功。 2.2 安装DeepSeek 打开终端,输入命令:ollama run deepseek-r1:1.5b&…

单页图床HTML源码+本地API接口图床系统修复版源码

源码介绍 图床系统是一种用于存储和管理图片文件的在线服务。它允许用户上传图片文件,并生成相应的图片链接,从而方便用户在网页、社交媒体或其他平台上分享图片。 PS:源码压缩包分为两个版本,一个是调用360第三方api接口,另外一…

初级渗透测试工程师需要学什么?网络安全零基础入门到精通教程建议收藏!

1、前言 本文主要介绍如何成为一名初级的渗透测试工程师所需要学习的内容,后续也会基于此将自己的学习总结、心得记录下来。相信在不断坚持下,争取在今年五月初成为一名初级的渗透测试工程师。 2、涉及知识领域 基础网络知识: 理解TCP/IP协…

DeepSeek写俄罗斯方块手机小游戏

DeepSeek写俄罗斯方块手机小游戏 提问 根据提的要求,让DeepSeek整理的需求,进行提问,内容如下: 请生成一个包含以下功能的可运行移动端俄罗斯方块H5文件: 核心功能要求 原生JavaScript实现,适配手机屏幕 …

网络安全营运周报

🍅 点击文末小卡片 ,免费获取网络安全全套资料,资料在手,涨薪更快 第三章网络安全基础 一、网络安全概述 1、网络安全现状及安全挑战 网络安全范畴极其广泛,可以说是涉及多方面。 因为计算机病毒层出不穷以及黑客的…

C#中级教程(1)——解锁 C# 编程的调试与错误处理秘籍

一、认识错误:编程路上的 “绊脚石” 在 C# 编程中,错误大致可分为两类:语法错误和语义错误(逻辑错误)。语法错误就像是写作文时的错别字和病句,编译器一眼就能识别出来,比如变量名拼写错误、符…

QML Button 部件的使用

按钮也是程序开发中最经常用到的部件,当然其也是比较简单,只需要懂得最基本的操作即可; Button {id: btnwidth: 100height: 50 } 生成一个最基本的按钮 text 属性可以设置按钮文本; flat 属性设置为true时,只有鼠标…

Starlink卫星动力学系统仿真建模第七讲-卫星姿轨控系统(Attitude and Orbit Control System, AOCS)设计规范

以下是一份卫星姿轨控系统(Attitude and Orbit Control System, AOCS)设计规范的框架和核心内容示例,供参考: 卫星姿轨控系统(AOCS)设计规范 1. 总则 1.1 目的 本规范旨在规定卫星姿轨控系统的设计要求、…

DINOv2 + yolov8 + opencv 检测卡车的可拉拽雨覆是否完全覆盖

最近是接了一个需求咨询图像处理类的,甲方要在卡车过磅的地方装一个摄像头用检测卡车的车斗雨覆是否完全, 让我大致理了下需求并对技术核心做下预研究 开发一套图像处理软件,能够实时监控经过的卡车并判断其车斗的雨覆状态。 系统需具备以下…

基础dp——动态规划

目录 一、什么是动态规划? 二、动态规划的使用步骤 1.状态表示 2.状态转移方程 3.初始化 4.填表顺序 5.返回值 三、试题讲解 1.最小花费爬楼梯 2.下降路径最小和 3.解码方法 一、什么是动态规划? 动态规划(Dynamic Programming&…

Java+Vue+SpringBoot+数据可视化的小吃摊位管理平台(程序+论文+讲解+安装+调试+售后)

感兴趣的可以先收藏起来,还有大家在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,我会一一回复,希望帮助更多的人。 系统介绍 在繁华的美食街区,美食摊位星罗棋布,每天都上演着热闹非凡的烟火…