哈尔滨工业大学DeepSeek公开课人工智能:大模型原理 技术与应用-从GPT到DeepSeek|附视频下载方法

导 读INTRODUCTION

图片

今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek 技术前沿与应用”的报告。

本报告深入探讨了大语言模型在自然语言处理(NLP)领域的核心地位及其发展历程,从基础概念出发,延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务,本身也蕴含大量知识,如地理信息、语义理解和推理能力。随着技术的发展,尤其是transformer模型的引入,预训练模型时代开启,GPT系列模型成为里程碑,GPT-3通过大规模参数和数据预训练,展现强大的文本生成能力,尽管存在知识准确性问题。ChatGPT的出现通过无监督、有监督和强化学习的融合,显著提高了模型性能和泛化能力,尤其在推理任务上取得突破。DeepSeek的RE模型通过极致的模型架构优化和开源精神,实现了高性价比、高性能的推理能力,接近甚至媲美顶尖模型,引起广泛关注。

此外,讨论了如何有效利用大模型的策略,包括清晰指令、提供丰富参考资料、分解复杂问题等,以及专业领域知识融合的方法,如检索增强和微调。最后,展望了人工智能的未来方向,强调了语言模型作为AI基石的重要地位和持续的研究挑战。

哈尔滨工业大学:《大模型原理 技术与应用-从GPT到DeepSeek

网盘下载:https://pan.quark.cn/s/230cde4fd7c8

以下是部分内容预览:

图片

图片

1.大语言模型原理、技术和应用介绍

介绍主要围绕大语言模型的原理、技术和应用展开,重点讨论从GPT到DeepSeek的发展过程。主讲人陈万祥来自计算学部人工智能学院,专注于社会计算与交互机器人研究中心的研究。他强调了语言作为交流工具和知识载体的重要性,并解释了大语言模型如何通过分析和理解人类历史上的文字,掌握和创造知识。

2.自然语言处理:人工智能的皇冠明珠

自然语言处理专注于人类语言的文本符号处理,涉及理解和生成两个关键方面,被视为认知智能的一部分,是人工智能领域中尤为复杂且重要的部分。该领域的突破被视为推动人工智能更大进展的关键,因此自然语言处理被誉为人工智能皇冠上的明珠。随着语言模型的发展,自然语言处理不仅在其自身领域取得了显著进步,也促进了整个人工智能领域的快速发展。

3.自然语言处理的发展历程及大模型技术

自然语言处理学科历史悠久,自上世纪50年代计算机发明后,机器翻译作为重要研究课题诞生,旨在解决美苏冷战时期的情报需求。尽管最初认为机器翻译任务简单,但历经70年发展,至今仍未彻底解决,尽管现有技术已显著提升。早期尝试通过知识灌输和浅层机器学习解决自然语言处理问题,效果有限。深度学习的出现,尤其是预训练语言模型,为自然语言处理带来了革命性进展,奠定了大模型技术的基础。大模型,或大规模预训练语言模型,已成为当前自然语言处理领域的核心技术。

4.预训练语言模型及其在自然语言处理中的应用

预训练语言模型,以GPT为代表,是一种通过大量文本数据进行训练,以生成和理解自然语言的模型。它通过衡量一个句子在语言中出现的概率,为自然语言处理任务提供支持。预训练语言模型不仅在机器翻译、拼音输入法和语音识别等任务中起到关键作用,还能通过预测下一个词的概率来辅助理解和生成流畅的文本。

5.语言模型的重要性及GPT的创新点

语言模型在预测下一个词的过程中蕴含大量知识,如地理信息、语义信息和推理能力。GPT通过使用transformer模型、预训练和简化下游任务模型的创新,有效提升了语言模型的性能,开启了自然语言处理预训练的时代。这些创新使得GPT能更准确地理解和生成语言,解决了传统技术的不足,从而在多种自然语言处理任务中取得显著成果。

6.预训练模型在自然语言处理中的作用及发展

讨论了预训练模型在自然语言处理领域的应用和优势,对比了预训练和非预训练模型处理数据的方法。通过类比教育过程,阐述了预训练模型如何通过大量未标注数据学习通用任务,随后在特定任务上进行精调以提高效果。特别提到了GPT系列模型的发展,从GPT1到GPT3,模型规模逐渐增大,至GPT3时参数量达到了1750亿,强调了大模型在当前技术下的重要性。

7.大模型在学术界的发展与挑战

在学术界,早在2020年之前就认识到大模型的重要性,特别是GP3模型因其巨大参数量带来的预训练和精调难题,促使研究者探索新范式。Open I提出的方法是让下游任务适应模型,而非模型适应任务,这通过将任务转化为语言模型预测上下文的任务来实现。例如,情感分类任务可以通过给定任务描述和示例让模型识别文本情感。GP3模型展示了强大的文本生成能力,甚至能自动编写代码,引发了通用人工智能是否已到来的讨论。然而,GP3也存在明显不足,如知识不准确和推理能力缺失,导致其在某些任务上的表现不如其他特定工作。因此,后续研究致力于增强模型的鲁棒性、解释性和推理能力。

8.ChatGPT的关键技术及其突破

对话中详细介绍了ChatGPT通过无监督学习和大规模预训练语言模型实现显著效果的关键技术。ChatGPT不仅模型规模大,预训练数据量也巨大,这使其见过的知识更多,参数容量更大。此外,对话指出ChatGPT颠覆了仅预训练的范式,通过将所有任务统一格式进行精调,使其不仅在已见过的任务上表现优异,还能泛化到从未见过的任务上,展现了强大的任务泛化能力。

9. ChatGPT关键技术及其引发的模型竞争

ChatGPT采用无监督学习、有监督学习和强化学习三项关键技术,其中强化学习特别通过人类反馈进行强化对齐,以使生成结果更符合人类期望并减少人工标注难度。这项技术的出现引起了学术界和工业界的广泛关注,激发了众多公司投入到相关领域,导致新模型层出不穷,形成了激烈的竞争态势。

10.Deep Seek模型为何突然走红

Deep Seek(DP sik)模型在一月底发布后迅速引起关注,尤其在国外,其在Nature杂志的报道中被描述为一款高性价比、完全开源的推理模型,性能可媲美顶级的OE模型。这些特点,尤其是其高性能和开源性,使得Deep Seek在众多模型中脱颖而出。

11.DeepSeek的推理模型及其核心技术创新

深入探讨了DeepSeek开发的推理模型及其发展历程,强调了模型从V1到V3、R1 zero再到21的迭代更新。特别提及了GRPO技术,这是一种由DeepSeek在去年二月提出的强化学习方法,其显著特点是无需驾驶网络,降低了对机器性能的要求,提高了学习的稳定性和效率。该模型在复杂推理任务上表现优异,主要贡献在于证明了通过强化学习即可获得推理能力,无需人工标注数据,从而大幅降低了成本。此外,模型架构的极致优化使得训练和推理速度大幅提升,降低了对算力的需求,拓宽了应用范围。DeepSeek坚持开源精神,公开了模型和详细的技术报告,这与某些竞争对手的封闭做法形成鲜明对比。推理被认为是人工智能发展的第六次范式变迁,DeepSeek的成功复现为这一技术路线的可行性提供了信心,激发了更多相关研究和实践。

12.思维链和强化学习在推理能力中的应用

推理技术在解决问题时,模仿人类分步骤思考的过程,而不是一步到位。2022年提出的思维链范式,让模型在输出时不仅给出最终答案,还展示中间解题步骤,增强了模型的推理能力。早期模型如Deep sik RE和OE通过强化学习,使模型自动学习推理能力,而不是依赖模型大小的增加。RE zero模型通过自我博弈和强化学习,让模型探索推理步骤,如果得出正确答案则给予奖励,错误则惩罚,以此训练模型的推理过程。这种技术不仅学习稳定性好,还能节省资源。

13.强化学习在自动推理过程中的显著进展

通过强化学习的方法,模型在AIME(美国数学奥赛)题目的表现从39%显著提升到了71%,接近预览版的open IOE能力。随着模型训练步骤的增加,其推理能力持续增长,显示了模型在算力充足的情况下探索更多路径的可能性。特别的是,模型在学习过程中展现了自我反思的能力,即能够识别错误的推理并进行修正,称为aha moment。同时,推理步骤随学习过程的增加而自然增长,但是否越多越好还需根据问题的复杂性决定。此外,为解决RE zero在推理步骤的可读性问题,阿尔法zero(R one)在冷启动阶段引入少量示例以指导模型学习一种语言和规范的格式,经过四个步骤的改进,模型的推理格式和语言表达更加规范,其能力从71%提升到接近80%,几乎与open I的正式版模型相当。

14.极致模型优化与开放的AI技术

讨论了Dik在模型架构优化方面的重要工作,包括使用算法优化、深度混合专家模型(MOE)、多头隐含注意力机制和多词源预测等技术,提高了模型预测效率和学习效率。此外,还介绍了在模型训练中的混合精度、并行训练架构和跨节点高效通讯等底层创新,以及Dik将这些核心技术和模型参数全面开源,甚至包括底层文件系统的优化,展示了其在AI领域的开放和极致优化策略。

15.Deep Sick模型的优化策略及影响

Deep Sick模型通过集合多种优化策略,显著降低了训练成本至其他模型如LAMA的十分之一,同时提高了性能。这种成本效益使得在有限资源下也能充分利用现有计算能力。Deep Sick的发布对Meta的LAMA项目造成压力,甚至影响了Meta的决策和人员调整。从GPT到Deep Sick的发展历程中,技术路线保持一致,主要通过大规模语言模型预训练并结合transformer架构,而Deep Sick在工程优化上达到了新的高度。

16.大模型应用及prompt设计原则

强调了有效使用大模型的关键原则,主要包括:确保指令清晰具体,使用分隔符提高识别准确性,提供示例以引导模型产生更佳结果,供给丰富参考资料以增强回答的准确性和深度,将复杂问题分解为步骤逐一解决,利用模型内置的外部工具如Python程序和搜索引擎提升问题解决能力,以及给予模型更多思考时间以获得更佳结果。这些策略旨在优化与大模型的互动,提高其在各种任务中的表现。

17.大模型在专业领域应用的挑战与策略

讨论了在特定专业领域中应用大模型时遇到的挑战和解决策略。首先提出通过优化prompt(即prompt工程)来充分利用模型的能力,即使模型可能未充分掌握某一领域的专业知识。如果单纯的知识不足,建议使用检索增强(RAG)技术,即通过检索相关领域的知识库来辅助模型生成更准确的答案。对于风格或格式上的问题,则可以通过微调模型来解决。此外,还介绍了智能体和多智能体技术在解决问题和科学研究中的应用,以及在实际应用中需考虑的模型小型化、个性化、安全性和隐私性等问题。最后,提到了实验室在大模型训练、增强及应用领域的工作,包括发布的开源对话模型“活字”。

18.大模型技术在代码生成与智能医疗等领域的应用

讨论聚焦于利用大模型技术在多个领域的创新应用,包括代码自动生成、智能医疗、以及机器人控制。首先,介绍了一种名为“珠算”的代码大模型,该模型具备轻量化、高效且功能强大的特点,能自动完成代码编写任务,从而提升编程效率并辅助模型进行复杂推理。此外,讨论了大模型在精神健康领域的应用,例如与中小学生聊天以缓解心理压力,以及通过引导式对话分析和疏导心理疾病。在医疗领域,介绍了中国首个医学大模型“本草”,以及基于大模型的多智能体辩论和人机融合医疗会诊平台,用于解决复杂医疗问题。最后,提到了软硬一体的机器脑项目,展示了通用机器人脑在控制多种形态机器人、执行复杂任务(如自动打咖啡)方面的潜力,体现了大模型技术在智能机器人领域的应用前景。

19.人工智能未来发展方向及阶段预测

讨论了人工智能未来的发展方向,强调了从当前推理阶段向多模态、具身能力乃至社会自组织机器人的演进。提到了从非交互式到交互式的转变,并详细介绍了Open I提出的通用人工智能发展的五个阶段:聊天机器人、推理器、代理、创新和组织,每个阶段代表了AI能力的逐步提升。此外,还探讨了实现这些阶段所需的条件,包括互联网级别的数据、多模态和物理控制能力,以及最终的社会自组织能力。

20. 自然语言处理与大模型技术的未来展望

重点介绍了自然语言处理(NLP)作为人工智能的关键领域,被誉为人工智能皇冠上的明珠。大模型,也被称为基础模型(foundation model),已成为人工智能的基石,支撑着其他能力的发展。特别提到了deep seek的R一模型,其三大核心贡献包括仅通过强化学习获得推理能力、极致的模型优化,以及开源和蒸馏技术的应用。报告还探讨了transformer模型的主导地位和未来可能的替代技术,以及自然语言处理从面向自然语言转向基于自然语言的处理,语言模型成为人工智能的基石。最后,提出了创新能力和人工智能学院作为未来研究和教育的方向。

篇幅有限以上只是部分内容概览

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/38801.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

redis解决缓存穿透/击穿/雪崩

文章目录 1.缓存穿透1.1 概念1.2 解决方案1.2.1 缓存空对象1.2.2 布隆过滤 1.2 店铺查询使用缓存穿透解决方案1.2.1 流程 2.缓存雪崩2.1 什么是缓存雪崩?2.2 雪崩解决方案 3.缓存击穿3.1 什么是缓存击穿?3.2解决方案3.2.1 基于互斥锁解决缓存击穿问题&am…

不连续平面提取

不连续平面提取 提取流程 #mermaid-svg-Y87uP8WsVRmPYriG {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-Y87uP8WsVRmPYriG .error-icon{fill:#552222;}#mermaid-svg-Y87uP8WsVRmPYriG .error-text{fill:#552222;s…

大语言模型-2.2/3-主流模型架构与新型架构

简介 本博客内容是《大语言模型》一书的读书笔记,该书是中国人民大学高瓴人工智能学院赵鑫教授团队出品,覆盖大语言模型训练与使用的全流程,从预训练到微调与对齐,从使用技术到评测应用,帮助学员全面掌握大语言模型的…

数据库操作练习

一.向heros表中新增一列信息,添加一些约束,并尝试查询一些信息 //向表中添加一列age信息 alter table heros add column age int;//id列添加主键约束,设置自增 alter table heros modify column id int auto_increment primary key;//name列…

CTF【WEB】学习笔记1号刊

Kali的小工具箱 curl www.xxx.com:查看服务器响应返回的信息 curl -I www.xxx.com:查看响应的文件头 一、cmd执行命令 ipconfig:ip地址配置等; 二、 Kali操作 1.sudo su; 2.msfconsole 3.search ms17_010 永恒之蓝&#xff…

在 SaaS 应用上构建 BI 能力的实战之路

SaaS 产品在持续运营过程中积累了大量数据,这些数据不仅是数字的记录,更是洞察市场趋势、优化产品功能、提升用户体验的宝贵资源。 因此,大部分的 SaaS 产品在发展到一定阶段后,都会开始构建自己的报表模块或分析模块,…

gonet开源游戏服务器环境配置

1.mysql搭建 搜索mysql-server apt安装包名 sudo apt search mysql-server 安装mysql-server sudo apt-get install mysql-server 安装完成后会,启动mysql服务及创建系统服务 查看服务状态 systemctl status mysql.service 使用超级权限登陆mysql sudo mysql 授…

STM32基础篇(五)------TIM定时器比较输出

简介 定时器的类型 在《STM32F10xxx参考手册(中文).pdf》中可以看到下面三个章节 因此可以得到 高级定时器含有通用定时器的所有功能,通用定时器含有基本定时器的所有功能!!!!!…

基于STM32的两路电压测量仿真设计Proteus仿真+程序设计+设计报告+讲解视频

基于STM32两路电压测量仿真设计(Proteus仿真程序设计设计报告讲解视频) 仿真图Proteus 8.9 程序编译器:keil 5 编程语言:C语言 设计编号:C0106 1.主要功能 基于STM32单片机设计一个双路电压检测器 1.系统可以测量两路输入电…

210、【图论】课程表(Python)

题目 思路 这道题本质上是一个拓扑排序。每次先统计每个点的入度个数、然后再统计点与点之间的邻接关系,找到入度为0的点作为起始遍历点。之后每遍历到这个点之后,就把这个点后续的邻接关系边的点入度减去一。当某个点入度为0时,继续被加入其…

react 杂记2 优化hook

useEffect 每个Fiber节点都会为该组件的所有effec对象​维护一个链表, 场景​类组件方法函数组件等效写法差异说明挂载时执行componentDidMount()useEffect(fn, [])useEffect 副作用在浏览器绘制后异步执行;componentDidMount 是同步的。更新时执行componentDidUp…

Java内存泄漏、CPU飙升排查

在Java应用开发中&#xff0c;内存泄漏和CPU飙升是两类高频出现的生产问题&#xff0c;也是常见的面试问题。这里通过一些demo进行实践。 内存泄漏 private static List<byte[]> leakList new ArrayList<>();GetMapping("/memory/leak") public void …

【搜索】dfs(回溯、剪枝、记忆化)

个人主页&#xff1a;Guiat 归属专栏&#xff1a;我讲你听 文章目录 1. dfs 回溯1.1 回溯介绍1.2 回溯模板1.3 回溯经典题目 2. dfs 剪枝2.1 剪枝介绍2. 2 剪枝模板2.3 经典题目 3. dfs 记忆化3.1 记忆化介绍3.2 记忆化示例 正文 1. dfs 回溯 1.1 回溯介绍 核心思想&#xff…

emWin自定义键盘布局

emWin V6.46提供了自带的键盘控件&#xff0c;用起来功能还是比较齐全的。但是有些时候自带的布局不能满足要求&#xff0c;此时可用键盘的结构体来自定义布局。 KEYDEF_KEYBOARD MyNumPad;static KEYDEF_AREA NumPadKeyArea[4] {{10, 0, 720, 250}, //每行按钮的坐标和占用…

人工智能之数学基础:瑞利商与特征值的关系

本文重点 瑞利商是线性代数中的一个重要概念,具有丰富的性质和广泛的应用。通过求解瑞利商的最大值或最小值,可以找到矩阵的特征值和特征向量,进而解决降维、聚类、优化和计算机视觉等领域的问题。广义瑞利商作为瑞利商的推广形式,在机器学习和数据分析中也发挥着重要作用…

Mysql配套测试之更新篇

&#x1f3dd;️专栏&#xff1a;Mysql_猫咪-9527的博客-CSDN博客 &#x1f305;主页&#xff1a;猫咪-9527-CSDN博客 “欲穷千里目&#xff0c;更上一层楼。会当凌绝顶&#xff0c;一览众山小。” 目录 测试准备&#xff1a; 更新测试 &#xff1a; 1.将孙悟空同学的数学成…

2025年如何避免使用验证码求解器时被IP封禁

引言 2025年&#xff0c;验证码求解器已成为自动化网络抓取和其他在线流程的关键工具。然而&#xff0c;自动化用户面临的一个常见挑战是IP封禁。当网站检测到自动化活动时&#xff0c;通常会阻止发出请求的IP地址&#xff0c;导致验证码挑战无法解决。本文将探讨使用验证码求…

ElasticSearch 可观测性最佳实践

ElasticSearch 概述 ElasticSearch 是一个开源的高扩展的分布式全文检索引擎&#xff0c;它可以近乎实时的存储、检索数据&#xff1b;本身扩展性很好&#xff0c;可以扩展到上百台服务器&#xff0c;处理 PB 级别&#xff08;大数据时代&#xff09;的数据。ES 也使用 Java 开…

操作系统的特征

并发 指两个或多个事件在同一时间间隔内发生。这些时间宏观上是同时发生的&#xff0c;但微观上是交替发生的。 并行 指两个或多个事件在同一时刻同时发生 操作系统的并发性 指计算机系统重“同时”运行着多个程序&#xff0c;这些程序宏观上看是同时运行的&#xff0c;而…

数据结构——B树、B+树、哈夫曼树

目录 一、B树概念1.B树的构造2 .B树的特点 二、B树概念1.B树构造2.B树的特点 三、B树和B树的区别四、哈夫曼树1.哈夫曼树的基本概念2.哈夫曼树的构建 一、B树概念 B树的出现是为了弥合不同的存储级别之间的访问速度上的巨大差异&#xff0c;实现高效的 I/O。平衡二叉树的查找效…