ChatGPT is not all you need，一文综述6大公司9类生成式AI模型

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

作者：Edison_G

生成模型领域里，ChatGPT 并不是一切。

转自《机器之心》

过去两年，AI 领域里已经出现大量大型生成模型，如 ChatGPT 或 Stable Diffusion。具体而言，这些模型能够执行像通用问答系统或自动创建艺术图像等任务，这些任务正在彻底改变很多领域。

从目前的发展来看，这些生成模型对行业和社会的影响是巨大的，因为一些工作岗位可能会发生改变。例如，Generative AI 能够有效且创造性地将文本转换为图像，如 DALLE-2 模型；把文本转成 3D 图像，如 Dreamfusion 模型；把图像转成文本，如 Flamingo 模型；把文本转成视频，如 Phenaki 模型；把文本转成音频，如 AudioLM 模型；把文本转成代码，如 Codex 模型；把文本转成科学论文，如 Galactica 模型；甚至创建算法的模型，如 AlphaTensor。

在近日由西班牙 Comillas Pontifical University 研究人员提交的综述论文中，作者试图以简洁的方式描述生成式 AI 对当前很多模型的影响，并对最近发布的主要生成式 AI 模型进行分类。

论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》：

链接：https://arxiv.org/abs/2301.04655

为向可能因使用这些模型而受益的专业人士提供有效信息，作者按如下结构组织文章。首先，作者提供行业中出现的主要生成式模型的分类。接着对每个类别进行分析。最后，本文会给出相关结论和未来要做的工作。文章中作者没有详细介绍每个模型的技术细节，如 Transformer，因为文章的目的是研究模型的应用，而不是研究它们的工作原理。

生成式 AI 模型的分类

在详细分析每个模型之前，首先将当前的生成式 AI 进行分类，类别代表输入数据和输出数据类型之间的映射。如图 1 所示。作者总共总结 9 个类别，其中每个出现在图 1 中的模型将在之后详细描述。由于文章主要关注点是描述生成式 AI 模型的最新进展，为让读者能有整体认识，在图 2 中给出了所有已发布的模型。

有趣的是，所有这些模型仅由 6 个公司发布，如图 3 所示。背后的主要原因是为能够估计这些模型的参数，必须拥有巨大的计算能力以及在数据科学和数据工程方面技术精湛、经验丰富的团队。因此，只有图 3 所示的公司，在收购的初创公司的努力下以及与学术界的合作，才能够成功发布生成式 AI 模型。

到此已经介绍了最新的生成式 AI 模型，接下来的部分将详细介绍图 1 中所示每个类别。

随着技术的进步，我们已经在文本到图像或文本到音频等任务中看到了大量的创造力和个性化。它们在文本到科学或文本到代码的任务中也很准确。这可以在很大程度上提升我们的自动化水平，因为它可以帮助优化创造性和非创造性任务。

然而，由于目前构建它们的方式，这些模型面临着许多限制。在数据集方面，找到一些模型的数据，如文本到科学或文本到音频非常困难，使得训练模型非常耗时。特别需要提到的是，数据集和参数必须非常庞大，这使得训练变得更加困难。模型最大的问题之一是从数据集中的问题中尝试获得解决方案，而模型在解决这些问题时遇到了更多麻烦。同样，在计算方面，运行它们需要大量的时间和算力。

我们应该意识到这些模型的局限性，以便在接下来的几年中尝试和改进它们。

更多细节请参见原论文。

© The Ending

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！