来源:《 极客圆桌派:狂飙的 ChatGPT》
整理:刘燕,Penny,王强
被ChatGPT带上风口的大模型,如何实际在各行业落地?
ChatGPT“军备竞赛”已渐入高潮,大型科技公司间的 AI 竞赛日趋白热化。ChatGPT 爆火也让大模型成为热门,已有多位 AI 大牛宣布杀入该领域创业。
今年 2 月,InfoQ 发起了极客有约特别栏目之《极客圆桌派:狂飙的 ChatGPT 》,一起探讨了 ChatGPT 到底“是什么”和“为什么”的问题。
一个月后,InfoQ 联合微软举办了《极客圆桌派:ChatGPT 点燃 AI 狂潮》直播活动,邀请了 4 位技术大咖再聊 ChatGPT,聚焦 ChatGPT 的价值核心。我们试图回答这样一些问题:
ChatGPT 到底能为中国企业和开发者带来什么?中国企业如何借力和追赶 LLM/ChatGPT 创造出实际价值?ChatGPT 所卷起的 AI 大模型热潮将如何影响开发者和企业?ChatGPT 背后的伦理挑战和风险问题又该如何应对?
以下为本次直播的精华内容,经编辑:
嘉宾介绍
主持人 Mingke:我是 Mingke,今天我将与各位嘉宾一起围坐在圆桌前,讨论 ChatGPT 和大型语言模型风暴的话题,一起探讨未来的发展方向。开始讨论之前,我们先相互介绍一下。
张大卫:我是竞智科技 GamesMind 创始人兼 CEO。我之前在微软亚洲研究院,主要研究深度学习、知识图谱和推荐系统。GamesMind 致力于在游戏开发、营销、美术和剧情等方面,运用 AI 和 AIGC 技术,帮助游戏厂商创作更出色的游戏。
郝杰:我是郝杰,现任明略科技集团的 CTO。之前服务于东芝、58 同城和 OPPO,一直致力于语音和 NLP 领域的研发工作。明略科技致力于利用 AI 和 AIGC 技术,为各行各业的客户提供营销智能和营运智能方面的服务和产品。
ChatGP:那些神话,争议与误解
主持人 Mingke:在讨论之前我想了解一下,最近大家都接收到了关于 ChatGP 和模型的哪些奇奇怪怪的说法,周围的人和媒体会有哪些不同的声音让你觉得是误区?
郝杰:最近我们频繁接触客户,他们希望使用 ChatGPT 来改善自己的产品和服务质量,但同时也提出了一些担忧。他们担心在各自的垂直领域中引入这样的技术后,可能会导致出现偏激或误导性质的内容,因此需要确保 ChatGPT 的输出质量。此外,他们也担心上传自己的知识到 ChatGPT 平台上会降低他们原有的门槛,因为目前 ChatGPT 还无法私有化部署。
明略作为客户和 ChatGPT 之间的桥梁,需要确保这座桥梁既安全可靠,又符合客户的实际需求。我们可以借鉴大模型训练的优秀算法,为客户定制出一些中小型的模型,并且确保这些模型也能展现出 ChatGPT 的智能特性。
我们经常与各方面的投资人讨论 ChatGPT,但我并没有觉得他们对 ChatGPT 有太多的误解。相反,我认为他们学习和跟进的速度非常快。有些投资公司非常懂技术,他们甚至已经学习了相关论文并深入分析了 ChatGPT 的整体架构,对这个话题也有深入的理解和研究。
张大卫:现在的投资机构,尤其是投资前沿领域,如 AI 等科技行业的机构,非常注重对这些领域的了解。他们积极地查看最新的新闻和论文,对其中的细节也有一定的了解。然而,他们可能会偶尔存在一些偏差,客户方面也可能会表现出奇怪或者不同寻常的行为,这既可能是来自于客户本身,也可能是由于各种误解和想法,比如针对 ChatGPT 或者大型模型的一些担忧和恐惧,等等。
我接触到的情况中,很多人受到新闻和其他因素的影响,担心 ChatGPT、AIGC 或者大型模型会取代他们的职业。甚至有些人不愿去深入了解,就对这些事情抱有抵触情绪。
比如一些内容创作者,他们依赖于自己的文案写作或者艺术创作能力,而 ChatGPT 有时可能会写出比他们更好的文案,甚至有时会体现出超越人类的能力。这类工作者目前的情况是:一是担心他们自己的工作会被取代,二是开始组织反对运动。这种情况本质上取决于人们对新事物的接受程度,以及担心实际就业问题所带来的各种观点和偏见。
ChatGPT 在
AI 生态系统中所处的位置
主持人 Mingke:与之前比较火的元宇宙等技术不同的是,ChatGPT 的背后比较复杂,需要更长时间去理解它能够做出什么东西来。在这种模糊的背景下,我们今天来讨论企业与 ChatGPT 的关系和生态。
希望今天的讨论可以帮助我们更清晰地理解大语言模型、 ChatGPT、AIGC 之间的关系,以及它们在企业中的应用。
郝杰:从生态系统的角度来看,我们现在处于一个巨大的软件和人工智能互联网生态系统中。我将这个生态系统理解为一种“圈层结构”。目前,OpenAI 和微软是处于“圆心”的两个主要角色,因为它们在这个生态系统中占据了制高点,率先推出了参数超多的千亿级别的大型模型,以及围绕这些大型模型所开发的非常优秀的产品。
就 ChatGPT 而言,Chat 是一种产品,也是一种交互方式。GPT 是一种模型,一种不太显式的、不像知识库或知识图谱一样的新型知识表示方式,它是一个巨大的隐式知识库,包含了地球上的各种知识。你可以通过 ChatGPT 平台来使用这个模型,并与它交互,使用聊天、对话或简单的问答形式展开。这种通用的交互方式可以涵盖全人类。此外,它的知识也非常通用,包括各种领域、各种行业的百科知识。
在这个生态系统中,明略科技应该处于比较靠近内层的中间层。比我们还要靠近“圆心”的是那些肩负发布大型模型使命的大公司。明略作为提供 ToB 服务的公司,处于生态系统的中间层,我们需要关注“圆心”,也需要关注更外围的下游。我们想利用 ChatGPT 和大模型的通用性,为客户提供广泛的服务,满足多样化的任务和场景需求。
如果将企业比作一个人,那么现在 AI 企业都有很多顾虑,害怕被同行超越。如果竞争对手在大模型上走得更快,很容易超越自己。同时,企业也很担心下游客户可能会先行采用其他服务,导致中间层服务提供商被抛弃。
很多客户可能会认为,门槛这么低了,我们就不需要你们了,我们自己可以解决。那我们该如何应对呢?其实我们与客户保持着频繁的沟通。明略现在向客户提供的是一个灵活可调的模型即服务框架。因为目前许多公司无法应对超大模型,我们比较务实,从客户的实际情况出发,为他们定制中小型模型,并训练出他们需要的模型,享受到大模型的好的效果。
张大卫:ChatGPT 的出现证明了通过数据和模型的结合,可以实现很多看似不可能完成的任务。新一代 GPT-4 是一个多模态模型,可以处理文本、图像等多种数据。这些都让人感到非常兴奋,因为这意味着我们有更多的机会去探索和实现更多的事情。以前有人担心 AI 的发展可能会受到限制,但现在看来,我们有更多的机会去发现和创造。
大模型为垂直领域带来了很多机会,但有些具体的深入问题需要结合具体领域的情况和知识来解决。大模型的出现使得处理客户需求和知识的事情变得更加容易,并提高了客户的接受程度,从而带来了更多机会和收益,这对整个行业都有积极影响。
iPhone 时刻
还是网景时刻?
主持人 Mingke:由于大模型技术的多样性,它可以为许多应用程序的产生提供可能性。有人认为这是一个 iPhone 时刻,大量的应用程序将随之产生,甚至催生一些新的创业公司来基于大模型进行各种领域的应用开发。但也有人担忧,如果它是一个 iPhone 时刻,那么这是否意味着它的基础设施将来也将是中心化的,由几个主要的玩家掌控?
相反,万维网框架刚刚出现,网景公司开始崛起时,HTML、HTTP、URL 等技术都已经定义好了,但它没有被任何一个公司所拥有,基础设施是开放和免费的,因此各种应用程序并不归属于某个公司,也不需要缴纳各种税。
对于大语言模型来说,它将更像是一个 iPhone 时刻,还是网景时刻?
郝杰:我认为当前既是 iPhone 时刻,也是网景时刻。我相信世界会朝着越来越开放的方向发展。在我和 ChatGPT 聊天时,我问它预测未来大模型的发展,是否只有一个像它这样的模型?它非常友好而谦虚地表示会有很多百花齐放的模型。
我认为我们很快就会进入网景时代。我预测大模型会发展成像 iPhone、三星、华为、小米和 OPPO 这样的少数几家非常商业化和闭源的公司,同时也会有很多开源的大模型和算法陆续开放,就像网景时代一样,这种趋势已经初现端倪。
张大卫:我也认为目前正处于一个像 iPhone 那样划时代的时刻。然而,我认为最终情况可能不会仅仅是像微软这样的一家公司。现在无论国内还是国外都发布了各种各样的模型,例如微软自己的研究院也发布了像 Kosmos-1 模型。在图像领域也是如此,例如之前的 Mid Journey 或者 DALL· E,都表现得非常出色。因此,我认为未来的发展趋势更可能是一个类似于网景时代的全面发展。
中国企业的大模型之路
主持人 Mingke:中国特色的大模型会如何诞生?我们可以简要地探讨一下。在国内哪些大型企业比较适合建立大模型?是不是只能是几个大型企业或一些创业公司联合,才有可能建立自己的大模型?此外,多大规模的模型可以被称为大模型?
郝杰:我认为有两到三种建立大型模型的路径。第一种是依靠大型企业,如国内的 BAT 和华为等,因为它们拥有充足的财力并已经准备好推出这些模型。第二种是从中等规模的模型入手,这对于一些不太大的公司如明略科技等独角兽公司来说是可行的。这些公司可以从垂直领域出发,率先建立中等规模的模型,类似亿级或十亿级参数的 GPT-2。第三条路径是通过突破工程难题,利用摩尔定律来降低大型模型的训练成本。虽然这是一个挑战,但是已经有一些公司正在致力于解决这个问题,我相信随着时间的推移,训练成本会逐渐降低。
关于模型评估,我向客户介绍的是“四大一小”评估标准。通用性分为四个方面:产品交互方面通用,只要会说话,就能与其进行交互;其次,像 GPT 一样的大型模型可以看作是通用知识库。第三方面是多任务泛化能力,这是因为模型具有任务的通用性。第四个方面是大型模型的通用性。以前我们做 AI 是将模型对齐到少数算法工程师的想法、交叉熵损失函数或最大最小风险策略等上面。现在,像 ChatGPT 这样的大型模型,通过基于人类反馈的强化学习等核心技术,将其效果对齐到全人类上。因为人类可以给它评分。
张大卫:所谓的大模型其实是一个相对的概念。我们应该关注一个模型的泛化能力,即其所能学习或实现的能力。OpenAI 发现,模型参数和训练数据的规模是很重要的,训练数据越大,参数就越大,这样最终可以带来像模型“开悟”这样的境界或效果。否则,你只是在无意义地堆积参数或训练数据。
在模型对齐的过程中,1000 个人来做标注已经是相当不错的水平。我们不一定非得让 1000 个人对所有数据进行标注。相反,我们可以使用算法进行初步筛选,并对一些有疑问的数据进行标注。我们可以随机选择一些人进行标记,如果大多数人标记结果一致,那么数据就通过了。如果标记结果不一致,我们可以再随机选择几个人进行标注。通过算法和一些策略,我们可以更有效地利用人力,而不是盲目增加人数。
不过从大型企业或责任方的角度来看,1000 个人并不足够。一个典型的例子就是不同省市、不同种族或不同性别的人希望在社会中有自己的一席之地。在 AI 领域中,我们需要一定比例的数据来代表这些人群或者他们的声音。这是一个非常重要的方向。
主持人 Mingke:评价这种大型语言模型时,我们需要关注其在多个任务上的泛化能力以及是否具有中国特色。但,我们也需要考虑到这个大型语言模型是应该面向全球开发,还是应该专门为中国市场而设计?你们怎么看待这个问题?
郝杰:在评价大型语言模型时,除了刚才提到的四个维度,我认为还需要运用辩证法,追求参数少的模型。如果在四个维度上大家的表现都差不多,我反而更倾向于选择参数最少的模型,因为这对于明略的客户来说意味着部署成本最低,维护和迭代也更容易。在学术界中,我们称之为“参数效率”。参数效率是我们评价大型语言模型的一个重要原则。
在生态圈中,各个企业都有自己的打算。除了 OpenAI、微软等大公司,其他企业可能并不太关注多样性和泛化能力这些因素,只要其主营业务上的大型或中型模型表现足够好就可以,因为他们并没有承担为全人类进行泛化任务的使命,这只是极少数企业长期致力于的事情。
张大卫:以往,由于算法、算力和数据来源的限制,人们普遍使用英文作为研究的开端。英文数据量足够多,效果也足够好。之后,我们才会将研究拓展到其他语言。模型通过英文数据和样本高效地学习各种“常识”(比如说,微软是一家公司),然后我们可以将这些学到的知识应用到其他语言中。前沿的一些技术也可以将不同语言的数据混在一起,提高研究的效率和质量。当然,如果我们只做一些具体领域的研究,或者只涉及一种特定语言,也是可行的。
大模型如何落地到各行业?
主持人 Mingke:郝杰老师,你会选择微软还是 OpenAI,在合规的情况下?
郝杰:微软拥有全球所有网页的索引,而垂直领域中的玩家有自己特色的知识沉淀,可能是一个数据库、一个标签库或一个知识图谱。明略可以帮助将私有的知识与 ChatGPT 进行互搏,从而使客户的数据飞轮更好地运转。
ChatGPT 的价值在于其背后的两个核心深度学习算法:强化学习和利用指令进行微调,这两种算法都是有监督的。我们帮助客户训练中小型模型,这些模型在垂直领域上的效果通常会超过 ChatGPT。我们为客户提供可扩展的模型作为服务的框架。
关于大语言模型和垂直领域模型的结合,其实有多种方法进行耦合配合。其中一种方法是利用两个核心算法进行有监督的微调,但可能需要更多的客户数据。另一种方法是将客户的知识库嵌入到大模型中,因为大模型可以处理各种不同类型的知识,只要它们被嵌入到相同的连续向量空间中。我们还可以嵌入多模态、跨领域和跨语言的知识,只要它们被约定嵌入到相同的语义空间中即可。
张大卫:以前大家曾尝试使用符号逻辑等方法,但现在逐渐采用嵌入的思路,将垂直领域的知识图谱等内容嵌入进去,这也是一个合理的思路。
在游戏这样的垂直领域中我们也有一些具体的做法。例如,在绘画时可以使用像 AIGC 这样的生成模型,基于 Prompt 来生成图像。但对于美术人员或其他专业人员来说,将他们的专业知识与该系统融合在一起是非常困难的,因为它不像对话系统或知识系统那样,可以将知识以嵌入的方式添加进去。
举个例子,在美术行业中,可能会有一些专用的语义表,其中指定了某些 RGB 值代表了某种语义,例如沙滩或人。我们可以将这些专业知识通过研发能力嵌入到生成模型中,这样专业人员在使用该模型时,可以直接使用沙滩的代号配合系统进行精准生成,而不需要花费大量精力去画出它。
我们可以将一些具体领域的专业知识,例如游戏领域、美术领域或其他娱乐领域的知识,以这种方式嵌入到大型模型或现有的 AIGC 模型中。
主持人 Mingke:在我们的操作和实践中,是否曾遇到需要与符号进行对接的情况?比如将生成模型与符号进行对接?
在企业中,高度可控性是非常重要的,高可解释性对于业务逻辑是至关重要的。过去,我们要求关键任务的准确性达到 100%。但现在,即使与人类的一致性相比,高可解释性也非常重要,尤其是对于监督学习这种用概率来表达逻辑的过程而言,这种类型的问题如何处理?
张大卫:根据目前的研究趋势,这种情况比较少见,虽然也有一些结合使用的研究,但总体而言还不普遍。在当前的实践中,还没有出现这样的操作。以前基于符号逻辑的研究会更加普遍,但现在相对较少。
郝杰:明略科技在知识图谱方面具有丰富的经验,特别是在消费类行业,如美妆、3C、汽车、大健康等领域。我们积累了比较完整、完备的知识库和知识图谱,知识图谱的知识表达形式更加高级,具有实体和连接,并且可以进行逻辑推理。图谱中的实体和关系决定了基于图谱生成的文章或图片的专业性和逻辑性。对于营销类短文的生成,明略科技离不开知识图谱,它能够保证文章的可解释性、专业性和逻辑性。在生成之后也会使用 ChatGPT 这样的大型模型进行润色,以满足客户的多重需求,包括风格修改和客户特殊要求等。这种方法不仅兼顾了多个维度的需求,让客户放心使用。
在当前的生态环境下,完全依靠神经网络、深度学习解决所有问题是很困难的。例如,敏感信息的过滤并不需要大型模型来学习。由于敏感信息是动态变化的,每天都会有新的敏感词出现,因此可以将这个模块集成到搜索引擎或者客户的数据平台中。这个模块可以采用规则和词表进行处理,而不必依赖于完全连接主义的大型模型。这个问题可能是多边形的,需要因地制宜地选择解决方案。
主持人 Mingke:对于服务或动态业务,例如银行,可以使用大模型来实现全面的业务动态化,而不是只限于知识。假设有两种类型的机器人,一种是 Web 1.0 机器人,也称为聊天机器人,它主要用于回答用户问题或从知识图谱中获取信息,但不连接业务系统。
另一种是 Web 2.0 机器人,也称为代理机器人,其目的不是回答用户问题,而是使用自然语言来操作业务系统并将业务系统返回的状态转换为自然语言后返回给用户。如果银行要将所有业务都封装成这样的机器人,一次性完成这样的任务将非常痛苦。在监督学习中,需要训练多个模型来处理不同的任务。
但是,如果要处理多个业务,可能会遇到模型能力不足、分发能力不足等问题。在这种情况下,ChatGPT 可以是一种可行的解决方案。如果银行开放其业务端口,ChatGPT 可能是一种有效的解决方案。如果客户有这方面需求,该怎么解决?
郝杰:我们确实也有金融行业的银行客户。通常银行要求所有系统都私有化部署,这意味着系统不能离开银行大门,但是它们需要一些连接器和 API 管理,将现有的各个系统、数据库、CRM 系统以及 BI 系统整合在一起。一个特殊之处是,我们国内的许多行业都要求其大型模型、营销、销售和服务系统等都进行私有化部署,这是由于它们行业自身的特性所决定的。
这种情况很容易导致项目利润率非常低,甚至可能亏损。因此,对于这类客户,我们提供的策略是一个灵活、可扩展的模型训练服务,以帮助他们充分利用自身积累的数据,训练适合他们的模型。并不是一定要部署高成本的大型模型,因为他们也需要考虑成本问题。
还有一个例子是微软的小冰,它是一个中等规模的模型,在思维链、智慧涌现方面也不比拥有千亿参数的 ChatGPT 差。小冰的思维链已经对接了实际业务场景中的一些动作,形成了闭环。这样做基于人类反馈的强化学习的训练,可以获得更多、更有价值的样本。相较于让 1000 个人进行标注,这种方法更加高效。这也印证了我们一直坚持从中小模型入手,为垂直业务提供服务的理念。此外,斯坦福大学的杨迪一团队也发表了文章,经过广泛的评测,证明了在监督下进行 fine-tuning 后,中小型的模型大多数时候都可以取得比 ChatGPT 更好的效果。这进一步证实了我们的观点。
张大卫:以前在将对话机器人与具体业务进行对接时,你会发现业务接口内容非常繁琐,技术只占了一小部分,更多的是业务上的各种复杂需求。这也导致了郝杰老师所说的问题,即只有把接口告诉 AI 或者将相关信息提供给它,AI 才能学习和自动完成任务。
主持人 Mingke:以静态文本的形式呈现模型,相对于专业领域模型或大型模型,或者是中等规模模型的结合,您认为哪种模型结构更具有未来性?从类似小冰或 ChatGPT 这样的结构来看,您认为哪一种更有前途?
张大卫:我认为,考虑到技术和商业两方面是必要的。从技术角度来看,大型模型的参数和数据越多,它们可以从趋势上学到更多的东西,因此在技术趋势方面,大型模型在本质上可能更好一些。从商业角度来看,我们需要根据具体情况来考虑。在一些垂直领域、银行等领域,他们可能拥有自己的模型,独立开发一个模型也是可行的。但是在一些实际场景中,我们倾向于使用大型模型,然后添加一些小型模型、网络层或附加层等等。这种商业模式的实现方式可能因不同场景而异。
在大型模型技术发展的今天,我们可以使用大型模型加上客户提供的小型模型来生成客户需要的资源。客户只需提供少量数据,就可以在很短的时间内得到符合自己公司风格或特色的图像、资源、甚至剧本或剧情。因此,在商业模式上,大型模型加上客户提供的小型模型是一种更可行、更可接受的方案。因此,综合考虑技术和商业两个角度,我们可以更好地回答大型模型和小型模型哪个更好的问题。
郝杰:我认为这两条路可能最终会走向同一个方向,尽管它们现在存在差异。这是因为“大”和“小”是相对的概念。
除了将大型模型应用于传统的业务产品之外,也会出现一些基于大型模型的 native 应用产品和服务。目前,我们已经看到了像 AIGC 以 Midjourney 为代表的一类图像生成应用产品的兴起,未来还将出现一些视觉视频生成的应用产品。ChatGPT 的出现也带动了许多文本生成公司的涌现,这些公司可能以前根本不存在,而现在它们的业务完全围绕着大型模型展开。这些公司的共同特点是它们能够生成内容,这可能包括生成、创意甚至心理咨询等方面的内容。与我之前提到的分析和识别业务不同,这些 native 应用程序是直接生成内容的。因此,AIGC 代表了一类基于大型模型 native 应用程序的应用产品。
哪些职业可能被 AI 替代?
主持人 Mingke:大模型涉及到了一些需要特定知识类型的工作,以及一些需要重复脑力的自动化或半自动化任务。从这个角度来看,哪些工作或工作流程中的环节容易被机器所替代?
张大卫:在游戏行业,AI 对美术设计提出了巨大的挑战。目前,有些初学者或水平有限的人员的绘画水平无法与 AI 相比,甚至效率远低于 AI。因此,对于游戏公司的主美来说,他们需要对整个美术有一个审美标准和整体风格的把控。对于其他一些基础美术,AIGC 可能会部分取代人类。
在创作中有很多枯燥或重复的部分。在这个过程中,AI 机器可以大大压缩创作的时间。例如,我们可以将创意或想法、文字或简单的线稿或草图输入,AI 可以快速生成数十张或数百张图像,供客户选择。客户可以选取自己喜欢的素材进行加工或修改。AI 可以完成很多枯燥乏味的工作,例如主美画草稿,基础美术涂色和完善画面等。AI 可以帮助人类降低探索成本。例如,在图像创作方面,AI 可以一次生成多个美术素材,在剧本方面,可以一次生成多个分支。虽然 AI 可能无法完全代替人类,但它可以给人类提供创意和灵感,大大缩短创作时间。
郝杰:我们各行各业客户的老板们普遍有降低成本、提高效率的诉求。然而,我个人的看法是,虽然在各行各业中,有些艺术或手艺类工作的差异可能相对较大,但总体而言,在面对大型模型和通用人工智能的冲击时,行业之间的差异应该是相对平等的。
在科学领域中,大型模型原生应用的场景也包括各种科学领域,例如超导材料、生命科学、医学和生物医疗等领域,这些领域很可能是大型模型大显身手的场景。OpenAI 正在做着不可思议的事情,将地球上所有的知识都装入一个模型中,虽然看似昂贵,但实际上反过来说,这是非常便宜的,对于惠及全人类来说是非常便宜的。未来,它的发展方向应该是惠及所有行业。它的目标不是让某些人失业,而是让他们更强大,让设计师、厨师和化妆师等更轻松地修炼到大师级别。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”