大概盘算了一下,一年多来,业界发布了非常多的大模型,从去年OpenAI GPT-3 1750亿参数开始,到年初华为盘古大模型 1000亿,鹏程盘古-α 2000亿参数,Google switch transformer 1.6万亿;及近期的智源悟道2.0 1.75万亿参数 MoE,快手1.9万亿参数推荐精排模型,阿里达摩院M6 1万亿参数等。
很多小伙伴看的是眼花缭乱,那究竟这些模型有没有差异?如果有差异,差异在哪里?
到底什么是大模型?到底大模型有什么用呢?
第一章 引言
过去10年的人工智能产品的成功,都归功于以为深度卷积、训练神经网络等为核心算法+NVIDIA显卡驱动算力+规模化监督标注下的深度学习1.0范式。也就是深度学习1.0对于AI产业是基础性的生产力变革,而在这个基础上应用这些技术构建的产品和服务,那都是在这个生产力框架下的上层应用。这是过往看到的技术推动生产力革命,带动产品服务产业化的路径。
最近几年,深度学习2.0范式正在进行,也就是以transformer结构为基础构建的大模型+自监督学习的方式构建超大规模数据集+知识+新的算力和算法框架。这又是一次技术涌现带来的生产力革命,可能带来新的产品化和商业机会。
深度学习2.0的核心技术,我们就称之为【大模型】,或者叫【基础模型】、【基模型】。
那【大模型/基础模型/基模型】