ChatGPT 的“横空出世”让普罗大众对人工智能的突破有了新的认识,人们第一次看到人工智能系统能够完成各种各样的事情,不论是需要常识的闲聊,还是需要专业知识的论文写作,甚至写代码都在话下。ChatGPT 出现后,人们开始期待,它就是工业革命中的那台蒸汽机,轰鸣着开启 AGI 的时代。
AGI是什么?有什么用处?将向哪些方向发展?有哪些投资机遇?人工智能商业化的落地先行者丁磊博士,在他的新书《生成式人工智能:AIGC的逻辑与应用》中,就这些问题进行了详细的解读。
01
AGI是什么?
通用人工智能(Artificial General Intelligence,AGI)是指能够像人类一样在各种领域和任务中表现出智能的机器。AGI是人工智能(Artificial Intelligence,AI)的一个分支,也是AI的终极目标。AGI的研究涉及到多个学科,如计算机科学、认知科学、哲学、神经科学等,旨在探索智能的本质和实现方法。被喻为人工智能领域的圣杯。
可以说,目前的自然语言处理技术和大型语言模型确实展现出了一些 AGI 的影子,但距离真正的 AGI 还很远。因为 ChatGPT 等模型虽然已经具有智能对话、语言翻译、文本生成等实用功能,但它们仍然缺乏某些关键的特征和能力,例如跨模态感知、多任务协作、情感理解等,这些能力的缺乏导致了我们目前看到的 ChatGPT 在回答中尚有生硬之处,比如有时它的回答看似合理,却是错误或荒谬的,有时人们调整问题措辞后,会获得不同的答案,无法拒绝不合理及不道德的请求,等等。
02
AIGC大火,全球纷纷布局
虽然 AGI 的到来仍未可知,但 ChatGPT 的出现已然被认为是一个重大的里程碑事件,如今,AIGC 在很多应用场景下都可以替代基础的脑力劳动,它的出现,将给我们的生活和生产方式带来颠覆性的变革。AIGC 生成的文本、图片、音频、视频、代码等多样化内容,在多样性、质量、效率三个方面推动了内容生产大步前进。当前的 AIGC 在文本生成、图片生成、视频生成等方面已经达到了堪称出神入化的效果。
AIGC应用已经初步具备一定的生产力,可以说,此时正是AIGC发挥价值的时刻,目前,国外AIGC赛道已有8家独角兽公司,国内虽尚未看到与国外AIGC独角兽公司相匹配的收入产生。但多家机构已高度明确要将AIGC作为主投赛道,并推出了相应的孵化项目,预计本年度融资规模将有数倍增长。
伴随底层大模型生态的逐步开放,商业价值的落地验证,预计到2024年左右,融资规模将出现首次阶段性的指数级增加。
03
AGI的未来,有哪些投资机遇?
作为人工智能领域的一个中长期目标,AGI 技术要不仅能够执行特定任务,而且能够像人类一样通盘理解和处理各种不同的信息,这样才能成为具有与人类类似或超越人类智能的计算机程序。虽然ChatGPT 等模型在自然语言处理方面取得了一些进展,但仍然需要进一步研究和发展,才能逐步向着 AGI 的方向发展。
在《生成式人工智能》中,丁磊博士对AGI的未来研究投资方向做出了预测:
第一,跨模态感知。我们将平时接触到的每一个信息来源域称为一个模态,这些来源可以是文字、声音、图像、味觉、触觉等等。随着信息技术和传感器技术的发展,模态的范畴也变得更广:互联网上的文本,深度相机收集的点云等信息,都可以看作不同形式的模态。
跨模态感知涉及两个或多个感官的信息交互,比如最基本的图像检索,就是一种从文本到图像的感官转换。反过来,从图像到语音的转换,可以帮助有视觉感官缺陷的人们,强化感知环境的能力。
人类天然具有跨模态感知能力,能够对来自多种感官的信息进行整合和理解。而当前绝大部分的人工智能系统只能单独运用其中的一项作为传感器来感知世界,对于不同的模态,需要设计不同的专有模型。
例如,根据文本生成图像的模型,采用的是将文本和图像进行联合编码的专有模型,这种模型无法适配声音生成等其他任务。各种模型之间无法真正打通是走向 AGI 的一大痛点。因此,研究如何让人工智能系统实现跨模态感知非常关键。
第二,多任务协作。人类能够同时处理多个任务,并在不同任务之间进行协调和转换。当人们面对机器人时,一句简单的吩咐,比如“请帮我热一下午餐”“请帮我把遥控器拿过来”等等,这些指令听上去简单,执行时却包含了理解指令、分解任务、规划路线、识别物体等一系列动作,针对每一个细分的动作都有专门的系统或者模型的设计。
这就要求机器人有多任务协作的能力。因此,多任务协作是 AGI最重要的研究方向之一,旨在研究如何让人工智能系统具有多任务协作能力,包括任务规划、任务选择和任务转换等,让“通用性”体现为不仅能够同时完成多种任务,还能够快速适应与其训练情况不同的新任务。
第三,自我学习和适应。人类具有学习和适应能力,能够通过不断的学习和经验积累来提高自己的能力。因此,研究如何让人工智能系统具有自我学习和适应能力也是实现 AGI 的必要步骤。其中主要包括增量学习、迁移学习和领域自适应三个方向。
增量学习就像人每天不断学习和接收新的知识,并且对已经学习到的知识不会遗忘,增量学习是指一个学习系统能不断地从新样本中学习新的知识,并能保存大部分以前已经学习到的知识,它解决的是深度学习中“灾难性遗忘”的问题:在新任务的数据集上训练,往往会使模型在旧数据集上的性能大幅度下降。
迁移学习是人类的一种很常见的能力,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习弹钢琴。
在机器学习中,我们可以把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中,即通过从已学习的相关任务中转移知识来改进学习的新任务。迁移学习的核心是找到并合理利用源领域和目标领域之间的相似性。
在日常生活中,这种相似性是非常普遍的,例如,不同人的身体构造是相似的,不同产品的瓶身造型是相似的,不同品牌手机的唤醒方式是相似的。我们可以将这种相似性理解为不变量。以不变应万变,才能立于不败之地。
领域自适应可以看成迁移学习的一种,旨在利用源领域中标注好的数据,学习一个精确的模型,运用到无标注或只有少量标注的目标领域中。它要解决的核心问题是源领域和目标领域数据的联合概率分布不匹配。比如,我们利用来自国内的汽车照片数据完成了模型的训练,这个模型已经能在这些汽车照片的分类任务上运行得很好了,但现在要把这个模型直接运用在国外的汽车上,效果可能欠佳。这时候就需要用到“领域自适应”,以实现模型的自适应迁移。
第四,情感理解。能够理解并表达情感是人类最重要的特征,它在交流协作中甚至常常影响事件的下一步走向。图灵奖获得者马文·明斯基(Marvin Minsky)以及美国国家工程院院士罗莎琳德·皮卡德(Rosalind Picard)等科学家都认为机器必须拥有理解和表达情感的能力。
当前,不少生成式对话系统的工作尚且将关注点集中在提升生成语句的语言质量,忽略了对人类情感的理解。因此,让人工智能系统理解情感,包括情感表达、情感分析和情感生成等,是实现AGI 的一个关键方向。
第五,超级计算能力。实现 AGI 需要庞大的计算资源和超级计算能力。为了提升这一能力,人们从不同角度出发,采取多种方法不断推进:开发更高效、更可扩展的计算平台;采用分布式计算,将应用分解成许多小的部分,分配给多台计算机进行处理,节约整体计算时间,提高计算效率;采用边缘计算,在更靠近数据生成的物理位置收集并分析数据,不仅可以达到更高效的数据处理效果,而且能提供更高的安全性、隐私性和更快的数据传输速度。
就像一辆汽车,人们不断升级油箱的容量、提高燃料的效率,以实现更远的行程。
目前,我们期待通过 AIGC 与其他产业的多维互动、融合渗透孕育新业态、新模式,为各行各业创造新的商业模式,提供价值增长新动能。到了 AGI 时代,通用智能体能够处理无限任务、自己产生并完成任务,并且具有价值系统。如此,我们将迎来生产力的又一次解放,人们摆脱了信息处理和认知能力的有限性,可以将更多的精力集中在人工智能尚不能处理的方面。
正如 OpenAI的 CEO、ChatGPT 之父山姆·阿尔特曼(Sam Altman)所说:“万物的智能成本无限降低,人类的生产力与创造力得到解放。
《生成式人工智能:AIGC的逻辑与应用》
中信出版集团
丁磊 著
2023年5月
ChatGPT问世,GPT-4即将接入未来办公软件……技术正在以前所未有的速度快速迭代,人类正在迎来新一轮的技术革命,企业、经济、个人发展将迎来重大变革。那么,这些技术背后的核心技术,生成式人工智能(AIGC),到底对企业、对商业有何影响,现在有着怎样的市场应用,已经催生了哪些经济,未来它的商业机会在哪里,我们个体未来如何把握发展机会?……这些问题对于我们理解当下,面向未来都十分重要。本书基于作者的专业背景和长期实践,在介绍生成式人工智能的技术逻辑基础上,着重分析其技术功能、市场应用及商业前景,将其与产业发展的实际相结合,帮助读者从本源了解未来趋势和发展机会。