人类社会正式从信息科技时代步入了人工智能时代,相比信息科技革命,人工智能科技革命的影响要深远的多,在这新旧交替剧烈变革期,绝大多数人都有机会。
为了更好的理解人工智能科技革命,首先我们首先梳理一下技术的发展趋势,在过去解决问题的核心思想是分治法,由此衍生出的核心算法如二叉树、SVM等,而硬件的载体是冯洛伊曼结构的CPU,这个时代诞生了intel、微软以及各大互联网公司。
而最近两三年,解决问题的思路变成了端到端,以1+2*2的计算为例,对于分治法解题思路,首先先算法乘除再加减,得到5,而对于端到端的解题思路是,输入1+2*2,输出5,没有了中间的分析过程。当前人工智能核心算法是Transformer以及Diffusion,硬件载体是近存计算GPU,以nvidia硬件商为代表,其市值一度超过苹果、微软成为全球最高的公司。
当前阶段称为弱人工智能,这一阶段的人工智能以简单,比如文本生成、图片生成、音频生成、视频生成、路径识别、语音识别等,这些任务的特点是相对单一。
弱人工智能的下一步是强人工智能,有些地方成为AGI,将在情感、视觉、动作等各个方面多元融合,硬件上会采用效率更高的存算一体硬件设计,这会使得单机智能可以达到人类大脑的水平,这将大大促进人形机器人、游戏等方面的发展。
以机器人为例,Figure公司的Figure02已经在宝马的车厂里测试。这相比以前的机械臂有了很大进步。
接下来我们回顾一下这两年AI技术发展情况,当前人工智能核心算法Transformer和Diffusion分别发表于2017年以及2020年。
但直到2022年OpenAI的ChatGPT才使得人工智能这个词真正进入普通人的生活,这里也欢迎欢迎各位评论区留言,说说AI对你所在行业的影响如何?下图是文生图、文本生成、视频生成重大标志性事件,目前的人工解决问题的思路变成了,数据+算力,这比以前简单很多,想想看在以前做语音识别,要分解到音素,用高斯混合模型对声学部分建模,然后再用n-gram对语言部分建模,在5年前的前前司还是一个博士团来做语音识别,而现在我一个人在开源的基础上就可以搞出性能远远领先当时博士团识别系统,这是生产力的革命。
这意味着以前做过的事,基本上可以用AI重来一遍,比如语音识别,机器人,游戏,语音合成、医药生物、艺术、影视等等,这会对世界产生深远的影响。
从开源的情况来看,当前人工智能的算法Transformer/Diffusion以及变体,已经基本相当于若干年的二叉树、SVM等算法,现在被坐车了通用库,大多数人调用即可,需要的是算力和数据,这意味着一家再小公司也可以自研AI能力。
在后期的视频中,我将解析Transformer/Diffusion背后的原理,代码实现以及其一些应用,包括语音识别、图像生成、语音生成、音乐生成、多模态、视觉模型等等,欢迎私信关注我的bilibili以及小红书,以便及时收到视频推送