【认知学习篇】【深度拆解DeepSeek：从技术内核到江湖地位（万字暴力拆机报告）】

【认知学习篇】【深度拆解DeepSeek：从技术内核到江湖地位（万字暴力拆机报告）】

news/2025/3/10 20:04:03/文章来源:https://blog.csdn.net/shaoyezhangliwei/article/details/146139449

凌晨三点的显示器前，我看着DeepSeek在kaggle竞赛题中暴力输出强化学习代码，突然意识到这个国产大模型可能藏着某些"屠龙术"。今天咱们不玩虚的，直接扒了它的技术底裤，看看藏在136B参数背后的硬核真相。（文末有手绘架构图，流量杀手慎入）

一、DeepSeek技术解剖室：当暴力美学遇上绣花功夫

1.1 魔改Transformer的十八般武艺

你以为的Transformer改进：加两层注意力完事
DeepSeek实际干的：在自注意力机制里搞了套"动态手术刀"

举个栗子，在处理代码长序列时，他们的位置编码玩了个骚操作——螺旋位置编码（实测效果堪比程序员喝红牛）
![螺旋位置编码示意图]
（想象一下把代码token绕成弹簧，离当前光标越近的token位置权重越高，这设计绝了）

更狠的是稀疏门控MoE，我拆了他们的推理日志发现：处理Python代码时，只有12%的专家被激活，但碰到SQL查询直接切换另一组专家。这就像给模型装了个自动变速箱，不同任务自动换挡。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/30887.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

不同开发语言之for循环的用法、区别总结

不同开发语言之for循环的用法、区别总结

一、Objective-C （1）标准的c风格 for (int i 0; i < 5; i) {NSLog("i %d", i); } （2）for in循环。 NSArray *array ["apple", "banana", "orange"]; for (NSString *fruit in …

阅读更多...

ctfshow做题笔记—栈溢出—pwn65~pwn68

ctfshow做题笔记—栈溢出—pwn65~pwn68

目录前言一、pwn65(你是一个好人) 二、pwn66(简单的shellcode？不对劲，十分得有十二分的不对劲) 三、pwn67(32bit nop sled)（确实不会） 四、pwn68(64bit nop sled) 前言做起来比较吃力哈哈，自己还是太菜了&…

阅读更多...

Git基础之工作原理

Git基础之工作原理

基础概念 git本地有三个工作区域，工作目录 Working Directory，暂存区Stage/Index和资源区Repository/Git Directory，如果在加上远程的git仓库就是四个工作区域四个区域与文件交换的命令之间的关系 WorkSpace：工作区，就…

阅读更多...

Linux 指定命令行前后添加echo打印内容

Linux 指定命令行前后添加echo打印内容

目录一. 前提条件二. 通过sh脚本进行批量修改三. 通过Excel和文本编辑器进行批量转换四. 实际执行效果一. 前提条件 ⏹项目中有批量检索文件的需求，如下所示需要同时执行500多个find命令 find ./work -type f -name *.java find ./work -type f -name *.html fi…

阅读更多...

Immich自托管服务的本地化部署与随时随地安全便捷在线访问数据

Immich自托管服务的本地化部署与随时随地安全便捷在线访问数据

文章目录前言1.关于Immich2.安装Docker3.本地部署Immich4.Immich体验5.安装cpolar内网穿透6.创建远程链接公网地址7.使用固定公网地址远程访问前言小伙伴们，你们好呀！今天要给大家揭秘一个超炫的技能——如何把自家电脑变成私人云相册，并…

阅读更多...

pytorch 50 大模型导出的onnx模型优化尝试

pytorch 50 大模型导出的onnx模型优化尝试

本博文基于Native-LLM-for-Android项目代码实现，具体做了以下操作： 1、尝试并实现将模型结构与权重零散的onnx模型进行合并，通过该操作实现了模型加载速度提升，大约提升了3倍 2、突破了onnxconverter_common 无法将llm模型导出为fp16的操作，基于该操作后将10g的权重降低到…

阅读更多...

Training-free Neural Architecture Search for RNNs and Transformers（预览版本）

Training-free Neural Architecture Search for RNNs and Transformers（预览版本）

摘要神经架构搜索 (NAS) 允许自动创建新的有效神经网络架构，为手动设计复杂架构的繁琐过程提供了替代方案。然而，传统的 NAS 算法速度慢，需要大量的计算能力。最近的研究调查了图像分类架构的无训练 NAS 指标，大大加快了搜索算…

阅读更多...

c++_二叉树的介绍

c++_二叉树的介绍

内存模型一.内存中有代码区；栈区；数据段堆区 1、栈区存放了函数所有局部变量和形参； 它的局限在于：局部变量和形参的生存期；即函数返回后对象就会被回收解决方案是：1）使用全局变量 &…

阅读更多...

②Modbus TCP转Modbus RTU/ASCII网关同步采集无需编程高速轻松组网

②Modbus TCP转Modbus RTU/ASCII网关同步采集无需编程高速轻松组网

Modbus TCP转Modbus RTU/ASCII网关同步采集无需编程高速轻松组网https://item.taobao.com/item.htm?ftt&id784749793551 网关 MS-A1-5081 MS-A1-5081 网关通过 MODBUS TCP 协议与 Modbus RTU/ASCII 协议的相互转换，可以将 Modbus 串口设备接入 MODBUS TCP 网络…

阅读更多...

[网络爬虫] 动态网页抓取 — Selenium 元素定位

[网络爬虫] 动态网页抓取 — Selenium 元素定位

🌟想系统化学习爬虫技术？看看这个：[数据抓取] Python 网络爬虫 - 学习手册-CSDN博客在使用 Selenium 时，往往需要先定位到指定元素，然后再执行相应的操作。例如，再向文本输入框中输入文字之前，…

阅读更多...

vue实现一个pdf在线预览，pdf选择文本并提取复制文字触发弹窗效果

vue实现一个pdf在线预览，pdf选择文本并提取复制文字触发弹窗效果

[TOC] 一、文件预览 1、安装依赖包这里安装了disjs-dist2.16版本，安装过程中报错缺少worker-loader npm i pdfjs-dist2.16.105 worker-loader3.0.8 2、模板部分 <template><div id"pdf-view"><canvas v-for"page in pdfPages&qu…

阅读更多...

Java零基础入门笔记：多线程

Java零基础入门笔记：多线程

前言本笔记是学习狂神的java教程，建议配合视频，学习体验更佳。【狂神说Java】Java零基础学习视频通俗易懂_哔哩哔哩_bilibili 第1-2章：Java零基础入门笔记：(1-2)入门（简介、基础知识）-CSDN博客第3章…

阅读更多...

【VUE2】第三期——样式冲突、组件通信、异步更新、自定义指令、插槽

【VUE2】第三期——样式冲突、组件通信、异步更新、自定义指令、插槽

目录 1 scoped解决样式冲突 2 data写法 3 组件通信 3.1 父子关系 3.1.1 父向子传值 props 3.1.2 子向父传值 $emit 3.2 非父子关系 3.2.1 event bus 事件总线 3.2.2 跨层级共享数据 provide&inject 4 props 4.1 介绍 4.2 props校验完整写法 5 v-model原理 …

阅读更多...

蓝桥杯刷题周计划（第二周）

蓝桥杯刷题周计划（第二周）

目录前言题目一题目代码题解分析题目二题目代码题解分析题目三题目代码题解分析题目四题目代码题解分析题目五题目代码题解分析题目六题目代码题解分析题目七题目代码题解分析题目八题目题解分析题目九题目代码题解分析题目十题目代码题解分析题目十一题目代码题解分…

阅读更多...

Redis渐进式遍历数据库

Redis渐进式遍历数据库

目录渐进式遍历数据库渐进式遍历 keys*可以一次性的把整个redis中所有key都获取到，这个操作是非常危险的，因为可能一下获取到太多的key，阻塞redis服务器。要想很好的获取到所有的key，又不想出现卡死的情况，就可以…

阅读更多...

一周学会Flask3 Python Web开发-使用SQLAlchemy动态创建数据库表

一周学会Flask3 Python Web开发-使用SQLAlchemy动态创建数据库表

锋哥原创的Flask3 Python Web开发 Flask3视频教程： 2025版 Flask3 Python web开发视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 前面我们定义了模型，我们可以通过sqlalchemy对象提供的create_all()方法来映射和动态创建数据库表。因为我们用到…

阅读更多...

android studio2024最新详解（完全小白）安装-运行第一个程序

android studio2024最新详解（完全小白）安装-运行第一个程序

前面我用2023最新版本的，死活就卡在引入依赖那里卡了两天，俺的崩溃谁知啊！！ 后面我就换了个思维，看着网上大多的教程都是基于2022或者2020的，我就找了个看起来非常详细的视频，里面的是2020的&am…

阅读更多...

laravel中添加公共/通用方法/函数

laravel中添加公共/通用方法/函数

一，现在app 下面创建Common目录，然后在创建Common.php 文件二，修改composer.json文件添加这个到autoload 中 "files": ["app/Common/Common.php"]"autoload": {"psr-4": {"App\\": &quo…

阅读更多...

c语言笔记函数参数的等价（上）

c语言笔记函数参数的等价（上）

这三种写法在 C 语言中是等价的，因为它们都用于声明一个指向二维数组的指针，或者用于声明一个二维数组作为函数参数。它们的等价性源于 C 语言中数组和指针之间的密切关系。让我们逐一分析这三种写法： 在C语言中，当数组作为函数参…

阅读更多...

ubuntu局域网部署stable-diffusion-webui记录

ubuntu局域网部署stable-diffusion-webui记录

需要局域网访问，如下设置： 过程记录查看源码： 查看源码，原来修改参数：--server-name 故启动： ./webui.sh --server-name0.0.0.0 安装下载记录： 快速下载可设置： export HF_ENDPOI…

阅读更多...

最新文章

推荐文章