随着 Make-A-Video、ChatGPT、PaLM 和其他大型语言模型获得如此多的关注,重要的是要记住这些模型存在严重的设计问题。
ChatGPT 最近很火。人们一直在使用它来完成各种任务——从撰写销售电子邮件和完成大学作业,甚至作为 Google 搜索的可能替代品。将其与其他大型语言模型(如 BERT)、AI 艺术生成器(如 Stable Diffusion 和 DALLE)以及谷歌在机器人和数学方面的热门产品(如 GATO 和 Minerva)相结合,看起来经过大量数据和计算训练的巨大变形金刚似乎是上帝的礼物机器学习。
虽然这些模型已准备好颠覆许多行业,但它们也有许多需要解决的设计缺陷。如果不考虑这些缺陷,将这些模型采用到您的解决方案中将是草率的并且存在很多缺陷。从长远来看,这会损害您的业务。在本文中,我将反其道而行之,并介绍在将大型语言模型集成到管道中时必须处理的一些严重问题。了解这些问题将有助于您以正确的方式使用这些强大的技术。
一、高额的训练与运行成本
为了避免非常明显的问题,大型语言模型非常昂贵。极其昂贵。这不应该让你们中的任何人感到震惊,但是模型越大,运行模型的成本就越高。发生这种情况有两个原因。一种很明显,一种不那么明显。
更大的模型→更多的参数→更高的成本。你必须做更多的计算才能得到相同的结果,这总是一个需要应对的挑战。
更多样化的数据→更大的搜索空间来遍历。多样性通常是一件好事,但只是在一定程度上。如果你有一个客户服务机器人,那么它知道如何用 Python 编