DeepSeek-R1论文阅读及蒸馏模型部署

DeepSeek-R1论文阅读及蒸馏模型部署

文章目录

  • DeepSeek-R1论文阅读及蒸馏模型部署
    • 摘要
    • Abstract
    • 一、DeepSeek-R1论文
      • 1. 论文摘要
      • 2. 引言
      • 3. DeepSeek-R1-Zero的方法
        • 3.1 强化学习算法
        • 3.2 奖励建模
        • 3.3 训练模版
        • 3.4 DeepSeek-R1-Zero的性能、自进化过程和顿悟时刻
      • 4. DeepSeek-R1:冷启动强化学习
        • 4.1 冷启动
        • 4.2 面向推理的强化学习
        • 4.3 拒绝采样和监督微调
        • 4.4 适用于所有场景的强化学习
      • 5. 蒸馏:赋予小型模型推理能力
    • 二、DeepSeek-R1蒸馏模型的部署
      • 1. ollama部署
      • 2. 推理引擎SGLang部署
    • 总结

摘要

本文介绍了基于强化学习的推理模型DeepSeek-R1-Zero及其改进版本DeepSeek-R1的研究与部署。DeepSeek-R1-Zero通过纯强化学习训练,无需监督微调,展现出自主推理能力,但面临可读性与语言混合问题。DeepSeek-R1结合多阶段训练与冷启动数据优化模型性能,其推理能力与OpenAI-o1-1217相当。研究团队开源了包括DeepSeek-R1-Zero、DeepSeek-R1及基于Qwen与Llama的六种蒸馏模型(1.5B至70B参数量),验证了蒸馏技术在轻量化模型推理能力提升中的有效性。模型部署支持Ollama框架快速体验及SGLang推理引擎的高效服务,为研究社区提供便捷的应用方案。

Abstract

This paper presents the research and deployment of DeepSeek-R1-Zero and its enhanced version DeepSeek-R1, which are reinforcement learning (RL)-based reasoning models. DeepSeek-R1-Zero, trained purely through RL without supervised fine-tuning (SFT), demonstrates autonomous reasoning capabilities but struggles with readability and language mixing. DeepSeek-R1 addresses these limitations by integrating multi-stage training and cold-start data, achieving performance comparable to OpenAI-o1-1217. The research team open-sourced DeepSeek-R1-Zero, DeepSeek-R1, and six distilled models (1.5B to 70B parameters) based on Qwen and Llama, validating the effectiveness of distillation in enhancing reasoning for lightweight models. Deployment solutions include user-friendly Ollama for rapid testing and SGLang for efficient inference, offering practical tools for the research community.

一、DeepSeek-R1论文

1. 论文摘要

论文介绍了DeepSeek的第一代推理模型,DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 是一个通过大规模强化学习 (RL, Reinforcement Learning) 训练的模型,没有以监督微调 (SFT) 作为预备步骤,它展现了非凡的推理能力。通过 RL,DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。然而,它遇到了诸如可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它在 RL 之前结合了多阶段训练和冷启动数据。DeepSeekR1 在推理任务上的性能与 OpenAI-o1-1217 相当。为了支持研究界,DeepSeek团队开源了 DeepSeek-R1-Zero、DeepSeek-R1 和六个基于 Qwen 和 Llama 从 DeepSeek-R1 蒸馏出来的密集模型 (1.5B、7B、8B、14B、32B、70B)。

image-20250216153922016

2. 引言

近年来,大型语言模型(LLMs)正在经历快速迭代和演变(Anthropic,2024;Google,2024;OpenAI,2024a),逐步缩小了通向通用人工智能(AGI)的差距。

近年来,微调已成为完整训练流程中的重要组成部分。研究表明,微调可以提高推理任务的准确性,使其与社会价值观保持一致,并适应用户偏好,同时与预训练相比,所需的计算资源相对较少。在推理能力的背景下,OpenAI 的 o1(OpenAI,2024b)系列模型首次引入了通过增加思维链推理(CoT, Chain-of-Thought)过程的长度来实现推理时间扩展。这种方法在各种推理任务中取得了显著的改进,例如数学、编码和科学推理。然而,有效测试时间扩展的挑战仍然是研究界的一个开放问题。之前的一些工作探索了各种方法,包括基于过程的奖励模型(Lightman 等人,2023;Uesato 等人,2022;Wang 等人,2023),强化学习(Kumar 等人,2024),以及蒙特卡洛树搜索和束搜索等搜索算法(Feng 等人,2024;Trinh 等人,2024;Xin 等人,2024)。然而,这些方法都没有达到与 OpenAI 的 o1 系列模型相当的通用推理性能。

这篇论文首次尝试使用纯强化学习(RL)来提升语言模型的推理能力。目标是探索LLM在没有任何监督数据的情况下发展推理能力的潜力,重点关注其通过纯RL过程的自我演化。具体来说,我们使用DeepSeek-V3-Base作为基础模型,并采用GRPO(Shao等人,2024)作为RL框架来提升模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero自然而然地展现出许多强大且有趣的推理行为。经过数千步的RL训练后,DeepSeek-R1-Zero在推理基准测试中表现出超群的性能。然而,DeepSeek-R1-Zero面临着可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能,我们引入了 DeepSeek-R1,它整合了少量冷启动数据和多阶段训练流程。具体来说,我们首先收集数千条冷启动数据来微调 DeepSeek-V3-Base 模型。在此之后,我们执行类似 DeepSeek-R1-Zero 的面向推理的强化学习。在强化学习过程接近收敛时,我们通过对强化学习检查点进行拒绝采样,并结合来自 DeepSeek-V3 在写作、事实问答和自我认知等领域中的监督数据,创建新的 SFT 数据,然后重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调后,检查点会进行额外的强化学习过程,同时考虑来自所有场景的提示。经过这些步骤,我们获得了名为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 相当。

我们进一步探索了从 DeepSeek-R1 到更小的稠密模型的蒸馏。使用 Qwen2.5- 32B (Qwen, 2024b) 作为基础模型,直接从 DeepSeek-R1 蒸馏优于对其应用强化学习。这表明,大型基础模型发现的推理模式对于提高推理能力至关重要。我们开源了蒸馏后的 Qwen 和 Llama (Dubey 等人,2024) 系列。值得注意的是,我们蒸馏的 14B 模型在推理基准测试中,大幅度超过了最先进的开源 QwQ-32B-Preview (Qwen, 2024a),而蒸馏的 32B 和 70B 模型在稠密模型中创下了新的记录。

3. DeepSeek-R1-Zero的方法

3.1 强化学习算法

image-20250216171410218

这个算法还不是很能理解

分组相对策略优化(GRPO, Group Relative Policy Optimization)

3.2 奖励建模

奖励是强化学习训练信号的来源,决定了强化学习的优化方向。为了训练DeepSeek-R1-Zero,我们采用了一种基于规则的奖励系统,该系统主要由两种类型的奖励组成:

  • 准确性奖励:准确性奖励模型评估响应是否正确。例如,在具有确定性结果的数学问题中,模型需要以指定格式(例如,在框内)提供最终答案,从而实现基于规则的可靠正确性验证。类似地,对于 LeetCode 问题,可以使用编译器根据预定义的测试用例生成反馈。

  • 格式奖励:除了准确性奖励模型之外,我们还采用了一个格式奖励模型,强制模型将其思考过程置于“<think>”和“<think>”标签之间。

我们在开发 DeepSeek-R1-Zero 时没有使用结果或过程神经奖励模型,因为我们发现神经奖励模型在大型强化学习过程中可能会遭受奖励黑客攻击,并且重新训练奖励模型需要额外的训练资源,这会使整个训练流程变得复杂。

3.3 训练模版

image-20250216170018743

为了训练 DeepSeek-R1-Zero,我们首先设计了一个简单的模板,引导基础模型遵循我们指定的指令。如表 1 所示,该模板要求 DeepSeek-R1-Zero 首先生成推理过程,然后给出最终答案。我们有意将约束限制在该结构格式,避免任何内容特定的偏差——例如强制反射性推理或推广特定问题解决策略——以确保我们能够准确地观察模型在强化学习 (RL) 过程中的自然进展。

3.4 DeepSeek-R1-Zero的性能、自进化过程和顿悟时刻

image-20250216170930065

DeepSeek-R1-Zero 图 2 展示了 DeepSeekR1-Zero 在 AIME 2024 基准测试中,在整个强化学习 (RL) 训练过程中的性能轨迹。

image-20250216171008189

表 2 对 DeepSeek-R1-Zero 和 OpenAI 的 o1-0912 模型在各种推理相关基准测试中进行了比较分析。研究结果表明,强化学习赋予DeepSeek-R1-Zero 强大的推理能力,无需任何监督微调数据。

DeepSeek-R1-Zero 的自我进化过程:DeepSeek-R1-Zero 的自我进化过程是强化学习如何驱动模型自主提高其推理能力的一个引人入胜的演示。通过直接从基础模型启动强化学习,我们可以密切监控模型的进展,不受监督微调阶段的影响。这种方法为我们提供了模型随时间推移如何演变的清晰视图,特别是在处理复杂推理任务的能力方面。
image-20250216171034758

图3表示,DeepSeek-R1-Zero 的思考时间在整个训练过程中持续改善这种改进并非源于外部调整,而是模型内部的固有发展。DeepSeek-R1-Zero 通过利用扩展的测试时间计算,自然地获得了解决越来越复杂的推理任务的能力。这种计算范围从生成数百到数千个推理标记,使模型能够更深入地探索和完善其思维过程。

这种自我进化的一个最显著的方面是,随着测试时计算量的增加,出现了复杂的行为。诸如反思——模型重新审视和重新评估其先前的步骤——以及探索解决问题的替代方法等行为自发出现。这些行为并非显式编程,而是模型与强化学习环境交互的结果。这种自发发展显著增强了DeepSeek-R1-Zero的推理能力,使其能够更有效率和准确地处理更具挑战性的任务。

image-20250216171210167

DeepSeek-R1-Zero 的顿悟时刻在 DeepSeek-R1-Zero 的训练过程中,一个特别引人注目的现象是顿悟时刻的出现。如表 3 所示,这一时刻发生在模型的中间版本中。在此阶段,DeepSeek-R1-Zero 通过重新评估其初始方法,学会了将更多思考时间分配给问题。这种行为不仅证明了模型不断增长的推理能力,也是强化学习如何导致意想不到的复杂结果的迷人例子。

这一时刻不仅对模型而言是顿悟时刻,对观察其行为的研究人员来说也是如此。这突出了强化学习的力量和美丽:我们不是明确地教模型如何解决问题,而是简单地为其提供正确的激励,它便会自主地开发出先进的解决问题策略。“顿悟时刻”有力地提醒了强化学习在人工智能系统中释放新智能水平的潜力,为未来更自主、更适应性强的模型铺平了道路。

DeepSeek-R1-Zero 的缺点:尽管 DeepSeek-R1-Zero 表现出强大的推理能力,并自主发展出意想不到的强大推理行为,但它也面临着一些问题。例如,DeepSeek-R1-Zero 在可读性差和语言混合等挑战方面举步维艰。为了使推理过程更易读并与开放社区共享,我们探索了 DeepSeek-R1,这是一种利用RL人性化冷启动数据的方法。

4. DeepSeek-R1:冷启动强化学习

受 DeepSeek-R1-Zero 的出色结果启发,我们自然会提出两个问题:1)是否可以通过少量高质量数据作为冷启动来进一步提高推理性能或加速收敛?2)如何训练一个用户友好的模型,使其不仅能够生成清晰连贯的思维链 (CoT),而且还展现出强大的通用能力?为了解决这些问题,我们设计了一个训练 DeepSeek-R1 的流程。该流程包含四个阶段,概述如下。

4.1 冷启动

与DeepSeek-R1-Zero不同的是,为了防止从基础模型开始RL训练的早期不稳定冷启动阶段,对于DeepSeek-R1,作者构建并收集了少量的长CoT数据来微调模型作为初始RL行为。为了收集这些数据,作者探索了几种方法:以长CoT为例,使用少量提示,直接提示模型生成具有反射和验证的详细答案,以可读格式收集DeepSeek-R1 Zero输出,并通过人工注释器进行后处理来细化结果。

在这项工作中,作者收集了数千个冷启动数据,以微调DeepSeek-V3-Base作为RL的起点。与DeepSeek-R1-Zero相比,冷启动数据的优势包括:

  • 可读性:DeepSeek-R1-Zero的一个关键限制是其内容通常不适合阅读。响应可能会混合多种语言或缺乏标记格式,以突出显示用户的答案。相比之下,在为DeepSeek-R1创建冷启动数据时,作者设计了一个可读的模式,在每个响应的末尾都包含一个摘要,并过滤掉对读者不友好的响应。在这里,我们将输出格式定义为|特殊令牌|<reasoning_process>|特殊令牌|<summary>,,其中推理过程是查询的CoT,摘要用于总结推理结果。
  • 潜力:通过仔细设计具有人类先验知识的冷启动数据的模式,作者观察到DeepSeek-R1-Zero的性能更好。可以认为迭代训练是推理模型的一种更好的方法。
4.2 面向推理的强化学习

在根据冷启动数据对DeepSeek-V3-Base进行微调后,作者应用了与DeepSeek-R1-Zero相同的大规模强化学习训练过程。此阶段的重点是增强模型的推理能力,特别是在推理密集型任务中,如编码,数学,科学和逻辑推理,这些任务涉及定义明确的问题和明确的解决方案。

在训练过程中,作者观察到CoT经常表现出语言混合,特别是当RL提示涉及多种语言时。为了减轻语言混合的问题,我们在RL训练期间引入了语言一致性奖励,其计算为CoT中目标语言单词的比例。

尽管消融实验表明,这种对齐会导致模型性能略有下降,但这种奖励与人类偏好一致,使其更具可读性。最后,作者将推理任务的准确性和语言一致性的奖励结合起来,直接将它们相加,形成最终的奖励。然后,作者对微调后的模型应用强化学习(RL)训练,直到它在推理任务上实现收敛。

4.3 拒绝采样和监督微调

当面向推理的强化学习收敛时,作者利用得到的权重为下一轮收集监督微调(SFT)数据。与主要关注推理的初始冷启动数据不同,这个阶段合并了来自其他领域的数据,以增强模型在编写,角色扮演和其他通用任务方面的能力。具体来说,作者生成数据并对模型进行微调,如下所述。

推理数据 作者通过从上述RL训练的权重执行拒绝采样来管理推理提示并生成推理轨迹。在上一阶段,作者只纳入了可以使用基于规则的奖励进行评估的数据。然而,在这一阶段,作者通过合并额外的数据来扩展数据集,其中一些数据使用了生成性奖励模型,将真实数据和模型预测输入DeepSeek-V3进行判断。

在论文《DeepSeek-R1》中,拒绝采样被用于生成高质量的监督微调(Supervised Fine-Tuning, SFT)数据。具体步骤如下:

  1. 从强化学习模型中采样:从经过强化学习训练的模型(如 DeepSeek-R1)中生成大量样本(例如,对某个问题生成多个回答)。

  2. 定义拒绝规则:根据某些标准(如答案的正确性、语言质量、是否符合人类偏好等)设计拒绝规则。例如,只保留正确答案或符合特定格式的样本。

  3. 生成高质量数据:通过拒绝采样,从大量生成的样本中筛选出高质量的样本,用于后续的监督微调。

非推理数据 对于非推理数据,例如写作,事实QA,自我认知和翻译,作者采用DeepSeek-V3管道并重用DeepSeek-V3的SFT数据集的部分。对于某些非推理任务,调用DeepSeek-V3在通过提示回答问题之前生成潜在的思维链。但是,对于更简单的查询,例如“hello”,我们不提供CoT作为响应。最后,作者总共收集了大约20万个与推理无关的训练样本。

作者使用上述约80万个样本的精选数据集对DeepSeek-V3-Base进行了两个epoch的微调。

4.4 适用于所有场景的强化学习

为了进一步使模型与人类偏好保持一致,作者实施了一个二级强化学习阶段,旨在提高模型的有用性和无害性,同时改进其推理能力。

具体来说,使用奖励信号和各种提示分布的组合来训练模型。

  • 对于推理数据,作者坚持DeepSeek-R1-Zero中概述的方法,该方法利用基于规则的奖励来指导数学,代码和逻辑推理领域的学习过程。
  • 对于一般数据,作者采用奖励模型来捕捉复杂和细微差别场景中的人类偏好。作者建立在DeepSeek-V3管道的基础上,并采用了类似的偏好对和训练提示的分布。

为了提供帮助,作者专门关注最终摘要,确保评估强调响应对用户的实用性和相关性,同时最大限度地减少对潜在推理过程的干扰。对于无害性,作者评估模型的整个响应,包括推理过程和摘要,以识别和减轻生成过程中可能出现的任何潜在风险,偏见或有害内容。最终,奖励信号和不同数据分布的整合使我们能够训练出一个在推理方面表现出色的模型,同时优先考虑有益和无害

5. 蒸馏:赋予小型模型推理能力

为了使更小、更高效的模型具备像 DeekSeek-R1 这样的推理能力,我们直接使用 DeepSeek-R1 收集的 800k 个样本对开源模型(如 Qwen(Qwen,2024b)和 Llama(AI@Meta,2024))进行了微调,具体细节见 §2.3.3。我们的发现表明,这种直接的蒸馏方法显著增强了小型模型的推理能力。我们在此使用的基础模型为 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instr uct。我们选择 Llama-3.3 作为基础模型,因为它的推理能力略优于 Llama-3.1。
对于蒸馏模型,我们只应用 SFT,不包括 RL 阶段,即使加入 RL 可以大幅提升模型性能。我们这里的主要目标是展示蒸馏技术的有效性,将 RL 阶段的探索留给更广泛的研究社区

二、DeepSeek-R1蒸馏模型的部署

1. ollama部署

Ollama是一个开源框架,专为在本地机器上便捷部署和运行大型语言模型(LLM)而设计‌。其主要目标是简化在 Docker 容器中部署大型语言模型的过程,使得非专业用户也能方便地管理和运行这些复杂的模型。‌目前 Ollama 支持 macOS、Linux、Windows,选择相应的系统下载即可。

进入ollama官网:https://ollama.com/

image-20250216160541698

选择对应的操作系统版本进行下载:

image-20250216160609854

打开cmd,输入下列命令

ollama run deepseek-r1:8b #可选:1.5b 7b 8b 14b 32b 70b

注意不同模型的配置要求不同:

DeepSeek模型版本参数量特点适用场景硬件配置
DeepSeek-R1-1.5B1.5B轻量级模型,参数量少,模型规模小适用于轻量级任务,如短文本生成、基础问答等4核处理器、8G内存,无需显卡
DeepSeek-R1-7B7B平衡型模型,性能较好,硬件需求适中适合中等复杂度任务,如文案撰写、表格处理、统计分析等8核处理器、16G内存,Ryzen7或更高,RTX 306012GB)或更高
DeepSeek-R1-8B8B性能略强于7B模型,适合更高精度需求适合需要更高精度的轻量级任务,比如代码生成、逻辑推理等8核处理器、16G内存,Ryzen7或更高,RTX 306012GB)或4060
DeepSeek-R1-14B14B高性能模型,擅长复杂的任务,如数学推理、代码生成可处理复杂任务,如长文本生成、数据分析等i9-13900K或更高、32G内存,RTX 409024GB)或A5000
DeepSeek-R1-32B32B专业级模型,性能强大,适合高精度任务适合超大规模任务,如语言建模、大规模训练、金融预测等Xeon 8核、128GB内存或更高,2-4张A100(80GB)或更高
DeepSeek-R1-70B70B顶级模型,性能最强,适合大规模计算和高复杂任务适合高精度专业领域任务,比如多模态任务预处理。这些任务对硬件要求非常高,需要高端的 CPU 和显卡,适合预算充足的企业或研究机构使用Xeon 8核、128GB内存或更高,8张A100/H100(80GB)或更高
DeepSeek-R1-671B671B超大规模模型,性能卓越,推理速度快,适合极高精度需求适合国家级 / 超大规模 AI 研究,如气候建模、基因组分析等,以及通用人工智能探索64核、512GB或更高,8张A100/H100

等待模型下载完成后即可对话:

image-20250216161307412

命令行的对话并不方便,可选择Chatbox增强对话的交互性。Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的 AI 模型和 API。在Chatbox AI官网https://chatboxai.app/zh中下载,安装后需进行配置。

image-20250216162227215

在模型提供方中选择“OLLAMA API”,在模型一栏中选择下载好的deepseek模型,点击“保存”即可正常对话。

image-20250216162545866

这个安装方式上手最快可直接体验,适合非专业用户部署。

2. 推理引擎SGLang部署

大模型推理引擎(Inference Engine),通过优化算法、硬件加速和分布式计算等技术手段,显著提升了大模型在实际应用中的推理速度和效率。这些引擎不仅能够加速模型的推理过程,还能在保证推理质量的前提下,降低计算资源的消耗,从而使得大模型在更多场景中得以广泛应用。SGLang是目前比较新的推理引擎,很多新开源大模型都支持SGLang的部署推理,例如deepseek-R1,Qwen2.5,Mistral,GLM-4,MiniCPM 3,InternLM 2, Llama 3.2等。

首先是环境的创建:

conda create -n sglang python=3.12conda activate sglangpip install vllm# 安装最新的版本pip install sglang==0.4.1.post7 pip install sgl_kernel

可能会提示libnvJitLink.so.12的链接问题,可以参照下列博客解决:

解决libcusparse.so.12: undefined symbol: __nvJitLinkAddData_12_1, version libnvJitLink.so.12

之后可能会提示flashinfer包缺失的问题:

from flashinfer import (
ModuleNotFoundError: No module named 'flashinfer'

下载flashinfer的安装 whl 包,然后用 pip 安装。

flashinfer各个版本安装包的地址:https://flashinfer.ai/whl/cu124/torch2.4/flashinfer/

下载匹配环境的版本,我是pytorch2.5.1,安装的是flashinfer-0.2.0.post1+cu124torch2.4-cp312-cp312-linux_x86_64.whl

wget https://github.com/flashinfer-ai/flashinfer/releases/download/v0.2.0/flashinfer-0.2.0+cu124torch2.4-cp312-cp312-linux_x86_64.whl#sha256=a743e156971aa3574faf91e1090277520077a6dd5e24824545d03ce9ed5a3f59pip install flashinfer-0.2.0.post1+cu124torch2.4-cp312-cp312-linux_x86_64.whl --no-deps

然后需要下载蒸馏模型的对应模型文件,在DeepSeek-R1的huggingface官网上:deepseek-ai/DeepSeek-R1 · Hugging Face

可以参考这篇文章解决下载huggingface上面大模型的问题:如何快速下载Huggingface上的超大模型,不用梯子,以Deepseek-R1为例子-CSDN博客

最后可以启动服务,以1.5b的蒸馏模型为例:

python3 -m sglang.launch_server --model ./DeepSeek-R1-Distill-Qwen-1.5B --host 0.0.0.0 --port 8123

显示如下,启动成功:

image-20250216174112451

利用测试脚本测试:

import openaiclient = openai.Client(base_url="http://localhost:8123/v1", api_key="None")response = client.chat.completions.create(model="deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B",messages=[{"role": "user", "content": "在计算机视觉人体骨架识别方面,请给我制定一份相关论文的学习路线"},],temperature=0,max_tokens=4096,
)
print(response.choices[0].message.content)

可得到DeepSeek-1.5B模型的输出:

image-20250216174156891

同时SGLang的推理引擎支持多GPU张量并行和数据并行的大模型启动,详情可以参考SGLang的中文手册:后端:SGLang 运行时 (SRT) — SGLang。

总结

本文探索阅读了最近很火的DeepSeek的原文并实践部署。DeepSeek-R1-Zero通过纯RL训练自主演化出复杂推理行为,验证了无监督方法的可行性;DeepSeek-R1进一步引入冷启动数据与多阶段优化,平衡性能与可读性。蒸馏实验表明,大型模型的推理模式可有效迁移至轻量化模型。部署方案兼顾易用性与效率,介绍了两种方法,Ollama支持非专业用户快速体验,SGLang则通过硬件加速与分布式计算优化推理效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20678.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

华为动态路由-OSPF-骨干区

华为动态路由-OSPF-骨干区 一、OSPF简介 1、OSPF概述 OSPF是一种开放式的、基于链路状态的内部网关协议&#xff08;IGP&#xff09;&#xff0c;用于在自治系统内部进行路由选择和通信。 OSPF是互联网工程任务组&#xff08;IETF&#xff09;定义的标准之一&#xff0c;被广…

RocketMQ - 常见问题

RocketMQ常见问题 文章目录 RocketMQ常见问题一&#xff1a;消息幂等问题1&#xff1a;什么是消费幂等2&#xff1a;消息重复的场景分析2.1&#xff1a;发送时消息重复2.2&#xff1a;消费时消息重复2.3&#xff1a;Rebalance时消息重复 3&#xff1a;通用解决方案3.1&#xff…

MySQL登录问题总结

不管何种数据库&#xff0c;使用的第一步都是先登录。 MySQL命令行登录语句&#xff1a;mysql -u username -P port -p -D database_name 登录MySQL的报错一般从报错信息都能得到反馈&#xff0c;常见报错原因分析如下&#xff0c;实例中的以test用户为例&#xff0c;登录环境为…

《千恋万花》无广版手游安卓苹果免费下载直装版

自取https://pan.xunlei.com/s/VOJS77k8NDrVawqcOerQln2lA1?pwdn6k8 《千恋万花》&#xff1a;柚子社的和风恋爱杰作 《千恋万花》&#xff08;Senren * Banka&#xff09;是由日本知名美少女游戏品牌柚子社&#xff08;Yuzusoft&#xff09;于2016年推出的一款和风恋爱题材…

【部署优化篇三】《DeepSeek边缘计算实战:把目标检测模型塞进树莓派,让AI在巴掌大的设备上“开天眼“》

“谁说只有超级计算机才能跑AI?今天咱们就要在树莓派上玩转DeepSeek目标检测,让这个巴掌大的小盒子变成会‘看’世界的智能终端!” 本文手把手教你从零开始,把最潮的目标检测模型塞进树莓派。全程高能预警,建议准备好你的树莓派4B/5和散热风扇,咱们这就开启边缘计算的魔法…

C++ Primer 类的作用域

欢迎阅读我的 【CPrimer】专栏 专栏简介&#xff1a;本专栏主要面向C初学者&#xff0c;解释C的一些基本概念和基础语言特性&#xff0c;涉及C标准库的用法&#xff0c;面向对象特性&#xff0c;泛型特性高级用法。通过使用标准库中定义的抽象设施&#xff0c;使你更加适应高级…

如何在 VS Code 中快速使用 Copilot 来辅助开发

在日常开发中&#xff0c;编写代码往往是最耗时的环节之一。而 GitHub Copilot&#xff0c;作为一款 AI 编码助手&#xff0c;可以帮助开发者 自动补全代码、生成代码片段&#xff0c;甚至直接编写完整的函数&#xff0c;大幅提升编码效率。那么&#xff0c;如何在 VS Code 中快…

剑指 Offer II 024. 反转链表

comments: true edit_url: https://github.com/doocs/leetcode/edit/main/lcof2/%E5%89%91%E6%8C%87%20Offer%20II%20024.%20%E5%8F%8D%E8%BD%AC%E9%93%BE%E8%A1%A8/README.md 剑指 Offer II 024. 反转链表 题目描述 给定单链表的头节点 head &#xff0c;请反转链表&#xff…

通过API 调用本地部署 deepseek-r1 模型

如何本地部署 deepseek 请参考&#xff08;windows 部署安装 大模型 DeepSeek-R1&#xff09; 那么实际使用中需要开启API模式&#xff0c;这样可以无拘无束地通过API集成的方式&#xff0c;集成到各种第三方系统和应用当中。 上遍文章是基于Ollama框架运行了deepSeek R1模型…

【产品经理】需求分析方法论+实践

阐述了需求分析的基本认知&#xff0c;包括需求分析的定义、原则和内容。接着&#xff0c;文章详细介绍了需求分析的十个步骤&#xff0c;从收集需求到结果评审&#xff0c;为产品经理提供了清晰的操作指南。 作为产品经理&#xff0c;需求分析是一个最基本的工作&#xff0c;但…

【玩转 Postman 接口测试与开发2_020】(完结篇)DIY 实战:随书示例 API 项目本地部署保姆级搭建教程(含完整调试过程)

《API Testing and Development with Postman》最新第二版封面 文章目录 最新版《Postman 接口测试与开发实战》示例 API 项目本地部署保姆级搭建教程1 前言2 准备工作3 具体部署3.1 将项目 Fork 到自己名下3.2 创建虚拟环境并安装依赖3.3 初始运行与项目调试 4 示例项目的用法…

2025年02月19日Github流行趋势

项目名称&#xff1a;OmniParser 项目地址url&#xff1a;https://github.com/microsoft/OmniParser 项目语言&#xff1a;Jupyter Notebook 历史star数&#xff1a;12878 今日star数&#xff1a;2153 项目维护者&#xff1a;yadong-lu, ThomasDh-C, aliencaocao, nmstoker, kr…

侯捷 C++ 课程学习笔记:设计模式在面向对象开发中的应用

在侯捷老师的《C 面向对象开发》课程中&#xff0c;除了对面向对象编程的基础特性&#xff08;封装、继承和多态&#xff09;的深入讲解外&#xff0c;还引入了设计模式这一高级主题。设计模式是面向对象编程中的一种最佳实践&#xff0c;能够帮助开发者解决常见的设计问题&…

前七章综合练习

一&#xff0c;拓扑图 二&#xff0c;实验要求 不限 三&#xff0c;实验步骤 第一步&#xff0c;搭建拓扑图 如上 注意&#xff1a; 第二步&#xff0c;配置IP trust&#xff1a; client1 client2 fw untrusrt-1&#xff1a; fw r3 电信DNS 百度web-1 untrust-2&#xf…

个人shell脚本分享

在周一到周五做增量备份&#xff0c;在周六周日做完全备份 #!/bin/bash定义变量 SRC“/path/to/source” # 源目录 BKUP“/backup” # 备份主目录 FUL“KaTeX parse error: Expected EOF, got # at position 22: …ull" #̲ 完全备份目录 INC"BKUP/inc” # 增量备份…

C语言之函数封装技巧

目录 前言 一、函数在源代码中的三种状态 二、函数封装的运用 案例1&#xff1a;实现打印20以内的素数 案例2&#xff1a;存放因子数并返回长度 三、return返回与形参返回 四、<>与“” 五、解耦 总结 前言 在C语言中&#xff0c;函数封装是一种重要的技巧&#…

深度神经网络终极指南:从数学本质到工业级实现(附Keras版本代码)

深度神经网络终极指南&#xff1a;从数学本质到工业级实现&#xff08;附Keras版本代码&#xff09; 为什么深度学习需要重新理解&#xff1f;&#xff08;与浅层模型的本质差异&#xff09; 模型类型参数容量特征学习方式适合问题类型浅层模型102-104手动特征工程低维结构化数…

vue3 + thinkphp 接入 七牛云 DeepSeek-R1/V3 流式调用和非流式调用

示例 如何获取七牛云 Token API 密钥 https://eastern-squash-d44.notion.site/Token-API-1932c3f43aee80fa8bfafeb25f1163d8 后端 // 七牛云 DeepSeek API 地址private $deepseekUrl https://api.qnaigc.com/v1/chat/completions;private $deepseekKey 秘钥;// 流式调用pub…

IIS asp.net权限不足

检查应用程序池的权限 IIS 应用程序池默认使用一个低权限账户&#xff08;如 IIS_IUSRS&#xff09;&#xff0c;这可能导致无法删除某些文件或目录。可以通过以下方式提升权限&#xff1a; 方法 1&#xff1a;修改应用程序池的标识 打开 IIS 管理器。 在左侧导航树中&#x…

代码解读:如何将HunYuan T2V模型训练成I2V模型?

Diffusion models代码解读:入门与实战 前言:HunYuan T2V模型出来很久了,但是想要训练成I2V的模型还是有点难度。此外,还有很多预训练视频模型都是T2V的,可以借鉴本文的方法加入参考图作为条件,并严格保持视频的第一帧与Image一样。 目录 Patch Image Padding Channel …