AI大模型在具体场景下的多样价值
· AI大模型相当于是通过积累大量知识,最后形成的一个有泛化知识的个体。它跟原来传统意义上的小模型之间的差异,就相当于一个经过了大量通用题库训练的大学生,和一个只在特定专业受训练的技校生的差异。
放眼整个AI大模型,不论是整体创建还是训练的成本都非常高,也是为什么国内外都是以研究院机构在主导技术推进。
· 自然语言处理(NLP)和计算机视觉(CV)这两块大模型是细分领域发展得最快的,技术上是因为相比其他情感或者逻辑推理等功能,结构更简单;应用上的原因主要是因为数据相对充分和廉价易得,大量的视频和文字资源可以近乎零成本扒取,另外也有直接可以应用的落地前景,比如对话系统推进系统、CV安防、智能产品的图像识别。
· 大模型的整体价值在于解决场景碎片化,在具体应用场景中,传媒影视用的比较多,做动漫游戏背景需要大量的素材,除了少部分核心的原画需要插画师创作,很多篇幅都可以通过机器生成;在科研领域,它也有可能驱动产生全新的研究范式,像生命科学以前基本上是靠纯手工的方法去做实验,现在结合大模型,演变出了干湿结合的新实验方法;智慧工业场景或者偏柔性的产线里也会产生各式任务和各种指标,像生产线传送带的温度、速度、压力以及生产数据本身,都可以通过大模型分析数据趋势,修正产线缺漏。
· 在产业端,大模型更像一种基础设施,达到一定规模后,它的重置成本就会非常高,如果最终只剩下少数几家取得优势地位的大模型供应商,并且在大多数行业上又有较好牵引力的话,那么就可能出现我们设想中的“AI超级大脑”。
· 眼下当务之急还是要找到更多行业结合点,让大家首先知道有大模型这种工具来尝试,现在陆陆续续有传统行业和互联网团队在积极对接了解大模型,这是好的信号。
HeptaAI(浙大HeptaAI Lab官方账号)回答:
技术革命在NLP界已经发生了,预计很快会影响到CV。以ChatGPT为代表的大模型将至少造成以下影响:
校设实验室向细或向空,公司实验室向大。校设实验室逐渐向大模型靠拢。由于训练资源不足,大量校设实验室将集中于prompt可解释性、即插即用方法、内部知识整合。训练资源尤其稀缺的校设实验室将集中在非常偏的任务。公司实验室会开始大模型竞争,RLHF的不同方向和规模将成为第一波low-fruit,外部知识整合会是第二波low-fruit。公司实验室的方法和参数保密性将进一步提升。公司实验室对系统架构和高效训练的人才的需求将迅速攀升。
小任务整合入大任务。大量小任务会并入大任务,构造有监督数据集并微调不再是小任务的第一选择。大模型无法取得好结果的小任务将成为研究热点。换句话说,研究热点将从“大模型能做到什么”转换为“大模型做不到什么”。
知识的挖掘和自监督学习成为NLP最前沿方向。大量基于RLHF的自监督基于知识的生成方法将被大实验室提出并实践,成果将大量发表在顶会。主流热点将主要focus在知识的数量、质量以及运用知识的方法。统计方法几乎完全取代规则方法,知识的地位将快速超越模型本身。这一浪潮将迅速影响到CV,今年必定有更多基于RLHF的CV方法发表于CV三大会。
资本变向,算法岗地位下降。资本将变向涌入大模型方向,未来数年会保持较高热度。公司将合并大量业务,竞争训练大模型以抢占市场。大数据工程师、后端工程师、架构师的地位提高,算法工程师地位进一步下降。
下面是写给从业者的建议。
如果你认真思考一下ChatGPT的架构,其实会发现ChatGPT无非就是微调的GPT-3,唯一的不同不过是知识的指向性,或者说模型对特定知识的筛选。GPT-3是用大量无指向性的非结构化文本训练的,而ChatGPT是在GPT-3的基础上用大量RLHF自监督的文本微调的。换句话说,知识才是ChatGPT优于GPT-3的关键。GPT-3的知识没有任何标签,因此本质是一个无监督学习;而ChatGPT使用RLHF生成符合人类指令要求的知识,因此本质是一个自监督学习。有了RLHF提供的监督信号,两个模型学习知识的质量就完全不同了。实验证明,使用质量高的知识,可以将GPT-3的模型规模压缩100倍。绕来绕去,NLG最后还是知识起了决定性作用。
想要在知识上做出创新,首先需要对NLG界中知识的演变做一个大致的了解。知识可以分为两种形式:内部知识(internal knowledge)和外部知识(external knowledge)。内部知识是从输入中获得的。例如,给定一串文本,内部知识就是这串文本隐含的topic、keyword等等。这串文本可以是一段summary,可以是一轮question-answering,甚至可以是一段对话(utterance+context)。外部知识是所有不能从输入中获得的知识,也就是在广泛的语料库中蕴含的知识。最简单的外部知识就是未被结构化的纯文本,例如小说、wikipedia、paper等。如果把纯文本结构化成知识库,知识就能被有效地组织起来。知识库其实就是一堆三元组,包括主谓宾。要构建知识库,可以人工标注三元组,也可以用大模型自动去打标签。形成知识库后,还可以用共享的主谓宾去做知识图谱,这样就可以运用各种各样的图算法了。其实ChatGPT和GPT-3都是运用大量的外部知识来提升生成的知识广度,而在内部知识上使用embedding一把梭,不考虑各种复杂的方法和指标。ChatGPT在生成回复后,会有reward model对输出进行打分,从而运用特定的外部知识;GPT-3在学习知识后不进行对输出的打分,直接进行推断,预训练时记住的外部知识成为生成的直接条件。换句话说,ChatGPT使用了“质量高”的外部知识。
知道了知识的分类,如何运用知识呢?最常用的知识整合方法还是attention,用dual encoder来fuse一个向量(一个输入文本的encoder,一个知识的encoder),此外还有用GNN来结构化句子。如果希望赋予OOV能力,可以加一个pointer network;如果希望赋予记忆能力,可以加一个memory network。
因此,从NLG界运用知识方式的发展的角度看:
外部知识的收集和整合的地位将迅速超越内部知识。
记忆方法如memory network将被attention取代,因为attention有能力记住far early内容。
OOV方法如pointer network将被attention取代,因为大量外部知识可以消除OOV的现象。
GNN等embedding方法可以用来整合入attention的embedding层,但价值大幅降低。
外部知识的质量监督的重要性将大幅超越知识的获取。
内容转载自知乎,著作权归属原作者,本文仅作学术分享,侵删
END
推荐阅读
全网唯一,不忽悠的ChatGPT
国内那么多AI专业,为什么国内却没有ChatGPT?
阻碍国内团队研究 ChatGPT 这样产品的障碍有哪些,技术,钱,还是领导力?
分享
收藏
点赞
在看