深度学习领域,你心目中 idea 最惊艳的论文是哪篇?

深度学习发展至今,共经历了三次浪潮,20 世纪40年代到60年代深度学习的雏形出现在控制论(cybernetics)中,20 世纪 80 年代 到 90 年代深度学习表现为 联结主义(connectionism),直到 2006 年,才真正以深度学习之名复兴。我们目下正在经历的正是第三次浪潮,大数据+大算力+炼丹术的改进,使得以NN为代表的深度学习技术开始大规模的在学术界和工业界得到研究和应用,相关的各种智能产品逐渐走向寻常百姓家。所以,是时候来回顾一下深度学习历史上那些惊艳的成果了。

惊艳的思想GAN对比学习注意力机制、自监督、自编码、知识蒸馏、记忆机制、门控机制。

大道至简的技术BP算法残差/跳跃连接dropout、batch norm、MLM、softmax及其温度系数、relu

惊艳的模型/论文GAN、AlexNet、ResNetword2vectransformerbert、GPT-3、SimCSE。

还有个骚东西:deepfake,潘多拉的魔盒;最新的MyStyle,可看做一个非常强大的 deepfake。

下面分领域简单说两句:

梦开始的地方:

万能近似定理:无论我们试图学习什么函数,我们知道一个大的 MLP 一定能够表示这个函数。

 

贪心逐层无监督预训练:深度学习的复兴始于 2006 年,源于Hinton等人发现这种贪心学习过程能够为多层联合训练过程找到一个好的初始值,甚至可以成功训练全连接的结构。虽然现在基本用不上了,但这是第一个成功训练全连接深度结构的方法,极大的鼓舞了大家对深度学习的信心。

通用技术

Xavier初始化:参数初始化的艺术!

ReLU:解决深度学习梯度消失问题的关键技术,为神经网络的深度发展奠定了基础,很多SOTA级别的模型依然在使用ReLU及其变体。

BatchNorm:参数规范化之道!

attention机制:attention真的很符合生物直觉,普通的attention、self-attention等各种attention为很多领域带来了颠覆性的改变,真attention is all you need!

残差连接:防止梯度消失的终南捷径,几乎已经成为了DNN的标配。

Adam:优化算法的集大成者

记忆机制神经网络擅长存储隐性知识,但是很难记住事实,也很难实现长期记忆能力。神经图灵机与记忆网络的出现为在NN中引入记忆机制提供了思路。具体的,Google DeepMind团队在Alex Graves2014提出Neural Turing Machines,第一次提出用external memory来提高神经网络的记忆能力;随后在Neural Turing Machines提出仅仅五天后,Facebook研究员Jason Weston发表了Memory Networks;之后又出现了多篇关于Memory Networks的论文,目前记忆机制已经在问答等领域得到了比较广泛的应用。

基础理论:

深度双波谷,事情好像和我们想象的不太一样;

彩票假说,发现稀疏可训练的神经网络,网络的有效性源自子网络买彩票中奖?

AdderNet: Do we really need multiplications in deep learning?题目相当吸引眼球。

信息瓶颈理论:网络像把信息从一个瓶颈中挤压出去一般,去除掉那些含有无关细节的噪音输入数据,只保留与通用概念(general concept)最相关的特征。学习最重要的部分实际上是忘记?不明觉厉~

CV

GAN:魔高一尺,道高一丈,万物在相生相克中成长;后面陆续又发展出了WGAN、DCGAN、StyleGAN、CycleGAN等一系列的模型,GAN当年的火热一如今年大火的扩散模型。

VAE:变分自编码器,与普通自编码器的损失的差别在于在重建loss的基础上多了一个KL散度的正则项,该正则项可以让后验分布q(z|x)与先验分布p(z)尽可能接近,一般p(z)假设为均值为0,方差为1的高斯分布。这个假设的先验分布也是VAE与GAN的最大不同之处。

AlexNet:CNN经典之作,当时很多硬件技术还不太行,平地起高楼是真无敌,作为首个在imagenet挑战赛上大放异彩的CNN,对整个机器学习社区产生了深远的影响。

ResNet:何凯明大神出品,CNN的集大成之作,残差连接简单有效,从此成为DNN的基本组件之一。

EfficientNet:重新思考CNN模型的缩放之道。

SimCLR:A simple framework for contrastive learning of visual representations.

MAE:MLM在视觉领域依然简单有效。

GIRAFFE:GAN+NeRF,效果真的让人眼前一亮,可以移动图片里的东西!不过NeRF这个真的是知识盲区了。

扩散模型:生成领域的新贵,比如OpenAI的DALL·E 2和Google的Imagen,引领文本生成图像领域的新风向,效果令人惊艳,甚至引发了AI绘画与画师之争!

NLP

word2vec:词嵌入领域的经典之作,思想简单(由中心词预测上下文或者由上下文预测中心词),效果很好,两个训练的优化算法也很有启发。

transformer:颠覆性的提出了transformer架构,迅速席卷NLP、CV等领域,一跃成为可与老牌的RNN、CNN并列的经典架构,并且大有取而代之之势。

bert:NLP预训练技术的划时代作品,从此在NLP领域掀起了预训练的热潮,并且迅速席卷CV等相关领域。

GPT-3:大力出奇迹,大模型之路还没有尽头!可惜没有开源,好在后面META开源了可与之媲美的OPT。

dropout两次:SimCSE中采用对比学习将sentence embedding推向新SOTA,SE领域突然就卷起来了;其中提出的将dropout用作数据增强的想法很有意思,简单实用,应该会有更广泛的用途。

No Language Left Behind: Scaling Human-Centered Machine Translation. 一个模型以最先进的质量翻译200多种语言。

ChatGPT:OpenAI最新对话模型,基于强大的GPT3.5和RLHF(基于人类反馈的强化学习)带来了对话生成的惊艳效果!文本生成的里程碑!先有扩散模型带来了AI绘画的实用化,再有ChatGPT引发了AI对话、写作的热潮,2022或许真的是AIGC元年!

推荐系统

YouTube那篇深度学习推荐论文。

知识蒸馏

hinton那篇知识蒸馏的开山之作。

搜索

最后说一嘴搜索领域的惊艳之作,不过多为传统的东西,可能有些跑题了。

倒排索引:优雅!

PageRank,当时还在搞物理,买了数学之美看着玩儿,被这个经典算法狠狠的惊艳到了,简洁优雅,据说是Google早期崛起的大功臣。

TF-IDF:简洁优雅,字符检索的不朽经典。

双塔架构:为了性能,基本很少有别的选择。

ANN向量检索里的乘积量化。

多模态

clip:通过对比学习连接图文,迎接多模态的热潮吧!

Make-a-scene: Scene-based text-to-image generation with human priors. 以文本和草图为条件的图像生成,创意表达,不止文字!

强化学习

DQN:深度强化学习!

AlphaGo/Go Zero:人机大战,震惊世界!

 

 如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。


👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。


1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/451852.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android中的内容提供者

目录 1.创建内容提供者 1--手动创建一个Android应用程序 2--创建自定义的内容提供者 2.访问其他应用程序 1. 解析URI 2. 查询数据 3. 遍历查询结果 3)案例:读取手机通信录 1.声明权限 2.activity_main.xml文件内容 3.my_phone_list.xml文件内容 4.定义PhoneInfo实体 5.定义MyPh…

现代大数据架构Kappa

现代大数据架构中的Kappa架构是一种处理大数据的架构,它作为Lambda架构的替代方案出现,旨在简化数据处理流程。以下是对Kappa架构的详细介绍: 一、核心思想 Kappa架构的核心思想是简化数据处理流程,通过使用单一的流处理层来同时…

就是这个样的粗爆,手搓一个计算器:热量计算器

作为程序员&#xff0c;没有合适的工具&#xff0c;就得手搓一个&#xff0c;PC端&#xff0c;移动端均可适用。废话不多说&#xff0c;直接上代码。 HTML: <div class"calculator"> <label for"weight">体重 (kg):</label> <inpu…

Git之代已修改文件的目录高亮设置

不管Android Studio或者Idea&#xff0c;进入Setting 选择如图所示&#xff0c;并进行勾选 就可以高亮了。

【C++】类的默认成员函数:深入剖析与应用(上)

&#x1f600;在上一篇文章中我们初步了解了C的基础概念&#xff0c;现在我们进行对C类的默认成员函数进行更加深入的理解&#xff01; &#x1f449;【C新手入门指南&#xff1a;从基础概念到实践之路】 目录 &#x1f4af;前言 &#x1f4af;构造函数 一、构造函数的定义…

Ambari-2.7.4和HDP-3.1.4安装(附Ambari和HDP安装包)

1.、环境及软件准备 Ambari-2.7.4和HDP-3.1.4下载 ,提取码:3rwq 环境:CentOS7(我这里使用的是CentOS7.9版本)、三台虚拟机,单节点内存13GB、存储80GB 软件:mysql5.7+、jdk8、ambari-2.7.4.0-centos7.tar.gz、HDP-3.1.4.0-centos7-rpm.tar.gz、HDP-UTILS-1.1.0.22-centos7…

Nodejs使用http模块创建Web服务器接收解析RFID读卡器刷卡数据

本示例使用设备&#xff1a; https://item.taobao.com/item.htm?spma21dvs.23580594.0.0.1d292c1buHvw58&ftt&id22173428704 Javascript源码 //引用http模块创建web服务器&#xff0c;监听指定的端口获取以GET、POST、JSON等方式上传的数据&#xff0c;并回应驱动读卡…

阿里云数据库导出 | 数据管理(兼容数据库备份)

文章目录 1、数据库导出2、操作步骤3、DMS - Data Management Service 1、数据库导出 2、操作步骤 3、DMS - Data Management Service

C#的自定义对话框和提示窗体 - 开源研究系列文章

上次的应用因为需要用到对话框和提示窗体&#xff0c;然后系统自带的MessageBox界面个人又看不上&#xff0c;所以就想自己编写一个自定义的窗体&#xff0c;于是有了本文&#xff0c;具体的已经应用到笔者其它的应用里了。 1、 项目目录&#xff1b; 2、 源码介绍&#xff1b;…

Bootstrapping、Bagging 和 Boosting

bagging方法如下&#xff1a; bagging和boosting比较

k8s-对命名空间资源配额

对k8s命名空间限制的方法有很多种&#xff0c;今天来演示一下很常用的一种 用的k8s对象就是ResourceQuota 一&#xff1a;创建命名空间 kubectl create ns test #namespace命名空间可以简写成ns 二&#xff1a; 对命名空间进行限制 创建resourcequota vim resourcequ…

秋招面试题记录_半结构化面试

c八股(可能问的多一点) 1.简单说说C11语法特性 答&#xff1a; 1.auto以及decltype自动类型推导&#xff0c;避免手动声明复杂类型&#xff0c;减少冗长代码提升了可读性和安全性。 2.智能指针 自动释放内存 (具体说说) 有shared和unique 差异主要体现在所有权、内存开销、…

Java项目-基于Springboot的高校党务系统项目(源码+说明).zip

作者&#xff1a;计算机学长阿伟 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、ElementUI等&#xff0c;“文末源码”。 开发运行环境 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringBoot、Vue、Mybaits Plus、ELementUI工具&#xff1a;IDEA/…

基于SpringBoot的“社区医院管理服务系统”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“社区医院管理服务系统”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 系统首页界面图 用户注册界面图 医生界面…

OpenWRT 和 Padavan 路由器配置网络打印机 实现远程打印

本文首发于只抄博客&#xff0c;欢迎点击原文链接了解更多内容。 前言 之前有给大家介绍过 Armbian 安装 CUPS 作为打印服务器&#xff0c;像是 N1 盒子、玩客云&#xff0c;甚至是随身 WiFi 都可以通过 CUPS 来进行打印。但是有些朋友不想专门为打印机添置一个设备&#xff0…

jeecg3版本的vue,离线启动

jeecg的vue2版本已经停止维护&#xff0c;所以只能用vue3的版本。3版本中使用的是pnpm&#xff08;npm的增强版本&#xff09;下载依赖。使用pnpm安装的node_modules&#xff0c;不能直接复制到离线主机中&#xff08;因为在 pnpm安装过程中&#xff0c;会给依赖的配置文件写死…

数据库、数据仓库、数据湖和数据中台有什么区别

很多企业在面对数据存储和管理时不知道如何选择合适的方式&#xff0c;数据库、数据仓库、数据湖和数据中台&#xff0c;这些方式都是什么&#xff1f;有什么样的区别&#xff1f;企业根据其业务类型该选择哪一种&#xff1f;本文就针对这些问题&#xff0c;来探讨下这些方式都…

React路由 基本使用 嵌套路由 动态路由 获取路由参数 异步路由 根据配置文件来生成路由

文章目录 React-router的三个版本react-router使用嵌套路由动态路由 获取路由参数Params参数Query参数Location信息 控制跳转地址异步路由根据配置文件生成路由 React-router的三个版本 React-router 服务端渲染使用React-router-dom 浏览器端渲染使用React-router-native Rea…

Electron入门笔记

Electron入门笔记 ElectronElectron 是什么Electron流程模型创建第一个Electron项目配置自动重启主进程和渲染进程通信打包应用 Electron Electron 是什么 跨平台的桌面应用开发框架使用 JavaScript、HTML 和 CSS 构建桌面应用程序的框架。 嵌入 Chromium和 Node.js Electro…

基于System.js的微前端实现(插件化)

目录​​​​​​​ 写在前面 一、微前端相关知识 &#xff08;一&#xff09;概念 &#xff08;二&#xff09; 优势 &#xff08;三&#xff09; 缺点 &#xff08;四&#xff09;应用场景 &#xff08;五&#xff09;现有框架 1. qiankun 2. single-spa 3. SystemJ…