先来了解一下ChatGPT的基本情况
ChatGPT本质属于生成式人工智能,属于无监督或半监督的机器学习。与之相关的还有Discriminative modeling区分式模型,区分式模型大多属于监督式学习。
生成性人工智能目前有两种主要的框架:GAN(Generative Adversarial Network )和GPT(Generative Pre-trained Transformer )。
GAN目前广泛应用于图像、视频和语音生成,在医疗、自动驾驶、元宇宙等领域有实际的应用。
随着GPT-4的推出,预计生成性人工智能将再一次超越人们的预期。
GPT是”Generative Pre-trained Transformer“生成型预训练变换模型的缩写,目的是为了使用深度学习生成人类可以理解的自然语言。
一、ChatGPT的产生是量变到质变的过程,积累了很多年,涉及到算力要有多少服务器,知识库、标注等很多问题。
ChatGPT的训练成本支出巨大。据Lambda Labs首席科学官Chuan li介绍,拥有1750亿个参数的GPT-3单次训练成本达到460万美元。在知乎上,网友在讨论ChatGPT时,也都认为它很“烧钱”。因此,可以说ChatGPT是一个靠大算力、高成本,用大规模的数据“喂”出来的AI模型。
二、数据背后是广泛的应用场景,算力背后靠的是完善的信息基础设施,算法背后需要深厚的人才储备。
国内持续投入大模型研发、技术基础扎实。目前,阿里达摩院的多模态大模型M6参数量已达10万亿,是全球最大的AI预训练模型;华为盘古、百度文心等大模型的参数量都超过了千亿,其中百度文心模型参数量已经达到2600亿,不逊于GPT-3。
虽然国内外企业在算法研发上基本保持同等水平,但国内更注重大模型技术与行业场景的融合,对于数据标注和模型训练等高成本的人力投入更为谨慎。
我们真正缺乏的是技术积累,包括数据怎么清洗、标注以及模型的结构设计,怎么训练、推理,这个地方很多都需要经验和积累。
三、用大数据、大算力、强算法“喂养”
AI大模型是人工智能迈向通用智能的里程碑技术,模型可以自动从数据中学习知识,提升性能。GPT是OpenAI推出的AI大模型系列。从2018年到2022年,OpenAI先后迭代并推出了GPT-1、GPT-2、GPT-3和InstructGPT,此次发布的ChatGPT就是在GPT-3的基础上通过指令微调后得到的。
算法层面,ChatGPT的基础是世界上最强大的LLM(大语言模型)之一——GPT-3,同时引入了基于人类反馈的强化学习方法,提高了对话的质量。
AI的训练和使用也需要强大的算力支持。ChatGPT的训练是在微软云上进行的,在全球云计算市场,微软云的市场份额排名第二。高水平、高市场份额,再加上芯片技术的高速发展,这都为ChatGPT的横空出世奠定了坚实的算力基础。
除了算法和算力,AI大模型的进步迭代,需要大量的数据进行训练。2020年发布的GPT-3,其训练参数量已经达到了惊人的1750亿个,“大量的数据被反复‘喂’给ChatGPT。”
基础算力和科研支撑少不了
笔者多年来一直专注于科学计算服务器,为多所高校做过多台服务器和服务器计算集群,参与学校和院系实验室、计算中心建设,拥有专业团队和过硬的技术能力及经验,所有配置都是结合科研实际需求配置,致力于打造国产科研服务器自主品牌,不断探索国人科研工具的自力更生之路。
经过多年努力,已经成为专业的科学计算服务器、工作站、集群供应商,提供深度学习训练、量化计算、分子动力学模拟、计算生物信息学、计算流体力学、有限元分析等科研方向软硬件整体解决方案,为科研提供基础算力支撑。
最后,希望我们科研人员有更多的自主权,更宽松的科研环境,更称手的计算工具 。