「ChatGPT」爆火背后的大语言模型到底是什么？

点击上方关注 “终端研发部”

设为“星标”，和你一起掌握更多数据库知识

本文首发于我的知乎，终端研发部！

链接：https://www.zhihu.com/question/585248111/answer/2903130554

说起chatGPT，我们都知道非常的火爆，作为程序员，我们更要知其然，知其所以然！

而在这个领域，最为重要的核心技术之一就是大语言模型。而在大语言模型中，ChatGPT就是备受关注的代表之一，几天我就给大家说说chatGPT背后的那些事情。

其实它是由开放人工智能研究院(OpenAI)开发的一种大型自然语言生成模型。其前身为GPT，经过不断的迭代和升级，已经发展成为了目前最为先进的自然语言处理技术之一。

ChatGPT主要是针对智能客服、聊天机器人等领域的人机交互应用而设计的。该模型不仅可以实现对话交互，还可以根据输入的信息进行推理，生成符合语义逻辑的文本，从而大大提高了对话的质量和效率。

so，我来补充一下什么是语言模型

语言模型(language model)：把语言输出看作一个符号序列，通过定义在词序列上的概率模型，计算一个词序列的概率。

2020年5月，OpenAI推出GPT-3模型（generative pre-trained transformer-3），其参数大小175亿参数，是上图第二大参数的 10 倍。

2022年11 月 30 日，OpenAI 发布了针对对话进行优化的语言模型 ChatGPT，该模型采用对话模式进行交互，不仅能回答问题，还能承认错误、质疑不正确的前提和拒绝不恰当的请求。

作为一款先进的大语言模型，ChatGPT拥有着很强的文本生成能力，可以模拟人类的思维过程，理解和处理自然语言。该模型使用了Transformer网络结构，并且训练了数百亿个单词级别的语言模型参数，从而可以对多种任务进行预测和生成。同时，该模型还集成了对话管理、情感识别、知识图谱等多种先进技术，使其更加智能化、人性化。

然而我不得不说一下大语言模型（LLM）的技术的重要性！

简单说，它的思路就是把尽可能大量大量大量大量的数据通过 Transformer 架构做机器学习，就能从数据中学到很多很多很多很多能力，多到超出原始设计者的想象。

比方说，它在翻译方面的能力，不输于，甚至超过了专业的机器翻译系统。

本文开头机翻的比尔盖茨的话，我觉得 ChatGPT 就比 Google 翻译得要好上一个层次。唯一瑕疵是用了比较生僻「元界」，而不是更常用的「元宇宙」。但当我告诉它「元宇宙」更常用后，它立刻就能修正翻译：

这个LLM模型规模必然非常巨大，ChatGPT是目前最接近理想LLM的技术方案，而理想中的LLM应该是以一个几乎无所不能的基础通用大模型作为依托，来支持各种各样的上层任务类型。目前看，支持越来越多的任务类型，主要是通过增加LLM预训练数据的多样性来达成的，数据多样性越好，LLM能够支持的任务类型就越丰富。所以，应该重视通过增加数据多样性来增加LLM新能力的思路。

这要以大模型成功的四个核心要素来分析。这四个要素是：

算法
数据
工程技巧
大量的钱买来的算力和人工反馈

像国内的阿里，百度，和腾讯也加入了这方面技术的研究。百度在人工智能领域从事了十多年，在深度学习算法与框架、人工智能赋能芯片、语言训练模型等技术方面积累了优势。

与此同时，微软表示，它计划在前几天发布自己的人工智能。

现在亚马逊、谷歌，思科、IBM、英特尔、英伟达等公司，都已经在开始布局CPO相关技术了。

同事也说一下，ChatGPT向GPT 3.5模型注入了新知识，方便LLM理解人的命令，对于什么是好的回答，什么是不好的回答，人类有自己的标准，例如比较详细的回答是好的，带有歧视内容的回答是不好的，诸如此类。这是人类自身对回答质量好坏的偏好。人通过Reward Model反馈给LLM的数据里，包含这类信息。总体而言，ChatGPT把人类偏好知识注入GPT 3.5，以此来获得一个听得懂人话、也比较礼貌的LLM。

随着人工智能技术的不断发展和创新，ChatGPT未来还将发挥更大的作用，带给我们更多惊喜和便捷的体验！