关注并星标
从此不迷路
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
计算机视觉研究院专栏
作者:Edison_G
生成模型领域里,ChatGPT 并不是一切。
转自《机器之心》
过去两年,AI 领域里已经出现大量大型生成模型,如 ChatGPT 或 Stable Diffusion。具体而言,这些模型能够执行像通用问答系统或自动创建艺术图像等任务,这些任务正在彻底改变很多领域。
从目前的发展来看,这些生成模型对行业和社会的影响是巨大的,因为一些工作岗位可能会发生改变。例如,Generative AI 能够有效且创造性地将文本转换为图像,如 DALLE-2 模型;把文本转成 3D 图像,如 Dreamfusion 模型;把图像转成文本,如 Flamingo 模型;把文本转成视频,如 Phenaki 模型;把文本转成音频,如 AudioLM 模型;把文本转成代码,如 Codex 模型;把文本转成科学论文,如 Galactica 模型;甚至创建算法的模型,如 AlphaTensor。
在近日由西班牙 Comillas Pontifical University 研究人员提交的综述论文中,作者试图以简洁的方式描述生成式 AI 对当前很多模型的影响,并对最近发布的主要生成式 AI 模型进行分类。
论文《ChatGPT is not all you need. A State of the Art Review of large Generative AI models》:
链接:https://arxiv.org/abs/2301.04655
为向可能因使用这些模型而受益的专业人士提供有效信息,作者按如下结构组织文章。首先,作者提供行业中出现的主要生成式模型的分类。接着对每个类别进行分析。最后,本文会给出相关结论和未来要做的工作。文章中作者没有详细介绍每个模型的技术细节,如 Transformer,因为文章的目的是研究模型的应用,而不是研究它们的工作原理。
生成式 AI 模型的分类
在详细分析每个模型之前,首先将当前的生成式 AI 进行分类,类别代表输入数据和输出数据类型之间的映射。如图 1 所示。作者总共总结 9 个类别,其中每个出现在图 1 中的模型将在之后详细描述。由于文章主要关注点是描述生成式 AI 模型的最新进展,为让读者能有整体认识,在图 2 中给出了所有已发布的模型。
有趣的是,所有这些模型仅由 6 个公司发布,如图 3 所示。背后的主要原因是为能够估计这些模型的参数,必须拥有巨大的计算能力以及在数据科学和数据工程方面技术精湛、经验丰富的团队。因此,只有图 3 所示的公司,在收购的初创公司的努力下以及与学术界的合作,才能够成功发布生成式 AI 模型。
到此已经介绍了最新的生成式 AI 模型,接下来的部分将详细介绍图 1 中所示每个类别。
随着技术的进步,我们已经在文本到图像或文本到音频等任务中看到了大量的创造力和个性化。它们在文本到科学或文本到代码的任务中也很准确。这可以在很大程度上提升我们的自动化水平,因为它可以帮助优化创造性和非创造性任务。
然而,由于目前构建它们的方式,这些模型面临着许多限制。在数据集方面,找到一些模型的数据,如文本到科学或文本到音频非常困难,使得训练模型非常耗时。特别需要提到的是,数据集和参数必须非常庞大,这使得训练变得更加困难。模型最大的问题之一是从数据集中的问题中尝试获得解决方案,而模型在解决这些问题时遇到了更多麻烦。同样,在计算方面,运行它们需要大量的时间和算力。
我们应该意识到这些模型的局限性,以便在接下来的几年中尝试和改进它们。
更多细节请参见原论文。
© The Ending
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
扫码关注
计算机视觉研究院
公众号ID|ComputerVisionGzq
学习群|扫码在主页获取加入方式
往期推荐
🔗
OVO:在线蒸馏一次视觉Transformer搜索
计算机视觉研究院:AI部署以及工业落地学习之路(文章较长,建议收藏)
用于吸烟行为检测的可解释特征学习框架(附论文下载)
图像自适应YOLO:恶劣天气下的目标检测(附源代码)
新冠状病毒自动口罩检测:方法的比较分析(附源代码)
NÜWA:女娲算法,多模态预训练模型,大杀四方!(附源代码下载)
实用教程详解:模型部署,用DNN模块部署YOLOv5目标检测(附源代码)
LCCL网络:相互指导博弈来提升目标检测精度(附源代码)
Poly-YOLO:更快,更精确的检测(主要解决Yolov3两大问题,附源代码)
ResNet超强变体:京东AI新开源的计算机视觉模块!(附源代码)
Double-Head:重新思考检测头,提升精度(附原论文下载