FrugalGPT

随着大型语言模型(LLM)的发展,人工智能正处于变革的爆发期。众所周知,LLM 可用于商业、科学和金融等应用,因而越来越多的公司(OpenAI、AI21、CoHere 等)都在提供 LLM 作为基础服务。虽然像 GPT-4 这样的 LLM 在问答等任务中取得了前所未有的性能,但因为其高吞吐量的特质,使得它们在应用中非常昂贵。

例如,ChatGPT 每天的运营成本超过 70 万美元,而使用 GPT-4 来支持客户服务可能会让一个小企业每月花费超过 2.1 万美元。除了金钱成本外,使用最大的 LLM 还会带来巨大的环境和能源影响。

现在很多公司通过 API 提供 LLM 服务,它们收费各异。使用 LLM API 的成本通常包括三个组成部分:1)prompt 成本(与 prompt 的长度成比例),2)生成成本(与生成的长度成比例),以及 3)有时还会有对于每个查询的固定成本。

下表 1 比较了 12 个不同商业 LLM 的成本,这些 LLM 来自主流供应商,包括 OpenAI、AI21、CoHere 和 Textsynth。它们的成本相差高达 2 个数量级:例如,对于 1000 万个 token,OpenAI 的 GPT-4 的 prompt 成本为 30 美元,而 Textsynth 托管的 GPT-J 仅为 0.2 美元。

成本和准确性之间的平衡是决策制定的关键因素,尤其是在采用新技术时。如何有效和高效地利用 LLM 是从业者面临的关键挑战:如果任务相对简单,那么聚合来自 GPT-J (其规模比 GPT-3 小 30 倍)的多个响应可以实现与 GPT-3 类似的性能,从而实现成本和环境上的权衡。然而,在较为困难任务上,GPT-J 的性能可能会大大下降。因此,如何经济高效地使用 LLM 需要采用新的方法。

最近的一项研究尝试提出解决这一成本问题的方法,研究者通过实验表明,FrugalGPT 可以与最佳个体 LLM(例如 GPT-4) 的性能相媲美,成本降低高达 98%,或者在相同成本下将最佳个体 LLM 的准确性提高 4%。

  • 论文地址:https://arxiv.org/pdf/2305.05176.pdf

来自斯坦福大学的研究者回顾了使用 LLM API(例如 GPT-4,ChatGPT,J1-Jumbo)所需的成本,并发现这些模型具有不同的定价,费用可能相差两个数量级,特别是在大量查询和文本上使用 LLM 可能更昂贵。基于这一点,该研究概述并讨论了用户可以利用的三种策略来降低使用 LLM 的推理成本:1)prompt 适应,2)LLM 近似和 3)LLM 级联。此外,该研究提出了级联 LLM 一个简单而灵活的实例 FrugalGPT,它学习在不同查询中使用哪些 LLM 组合以减少成本并提高准确性。

这项研究提出的思想和发现为可持续高效地使用 LLM 奠定了基础。如果能够在不增加预算的情况下采用更高级的 AI 功能,这可能会推动人工智能技术在各个行业的更广泛采用,即使是较小的企业也有能力在其运营中实施复杂的人工智能模型。

当然,这只是一个角度,FrugalGPT 到底能实现怎样的影响力,能否成为「AI 行业的游戏规则改变者」,还需要一段时间才能揭晓。在论文发布之后,这项研究也引发了一些争议:

「摘要严重夸大了论文的内容,这里的标题也有严重的误导性。他们所做的是设计了一种方法,以减少在论文中所涉及的一类问题中需要调用高端模型的次数。这不是以 2% 的成本替代 GPT-4,也不是以 4% 的精度替代 GPT-4。它是一种将 GPT-4 与更低廉的模型和支持性基础设施相结合的方法。摘要中没有指出的是,这需要建立一个自定义模型来对结果进行评分,而这是该机制的真正核心。…… 这种方法有合法的用例,其中包括基本的成本工程,如缓存结果。但对于大多数用例来说,这完全不相关,因为你没有一个合适的评分模型。」

「他们只在三个(小的)数据集上评估了这一点,并且没有提供关于 FrugalGPT 选择各自模型的频率的信息。另外,他们报告说较小的模型取得了比 GPT-4 更高的准确性,这使我对这篇论文总体上非常怀疑。」

具体如何判断,让我们看一下论文内容。

如何经济、准确地使用 LLM

接下来论文介绍了如何在预算范围内高效的使用 LLM API。如图 1 (b) 所示,该研究讨论了三种降低成本的策略,即 prompt 适应、LLM 近似和 LLM 级联。

策略 1:prompt 适应。LLM 查询的成本与 prompt 的大小呈线性增长。因此,降低使用 LLM API 成本的一个合理方法包括减小 prompt 大小,该研究将这个过程称为 prompt 适应。prompt 选择如图 2(a)所示:与使用包含许多示例以演示如何执行任务的 prompt 相比,可以只保留 prompt 中的一个小子集示例。这将导致更小的 prompt 和更低的成本。另一个例子是查询串联(图 2(b)所示)。 

策略 2:LLM 近似。LLM 近似的概念非常简单:如果使用 LLM API 成本太高,可以使用更实惠的模型或基础设施进行近似。其中一个例子如图 2(c)所示,其基本思想是在向 LLM API 提交查询时将响应存储在本地缓存(例如数据库)中。LLM 近似的另一个例子是模型微调,如图 2 (d) 所示。

策略 3:LLM 级联。不同的 LLM API 在各种查询中都有自己的优势和劣势。因此,适当选择要使用的 LLM 既能降低成本又能提高性能。如图 2(e)所示为 LLM 级联的一个例子。

成本的降低与精度的提高

研究者进行了一项关于 FrugalGPT LLM 级联的实证研究,目标有三个:

  • 了解 LLM 级联的简单实例所学习的内容;

  • 量化 FrugalGPT 在匹配最佳的单个 LLM API 的性能时实现的成本节约;

  • 衡量 FrugalGPT 所实现的性能和成本之间的 trade-off。

实验设置分为几方面:LLM API(表 1)、任务、数据集(表 2)和 FrugalGPT 实例。

 FrugalGPT 是在上述 API 之上开发的,并在一系列属于不同任务的数据集上进行了评估。其中,HEADLINES 是一个金融新闻数据集,目标是通过阅读金融新闻标题来确定金价趋势(上升、下降、中性或无),这对于过滤金融市场的相关新闻特别有用;OVERRULING 是一个法律文件数据集,其目标是确定一个给定的句子是否是一个「overruling」,即推翻以前的法律案件;COQA 是一个在对话环境中开发的阅读理解数据集,研究者将其改编为一个直接查询回答任务。

他们专注于 LLM 级联方法,级联长度为 3,因为这简化了优化空间,并且已经展示了良好的结果。每个数据集被随机分成一个训练集来学习 LLM 级联和一个测试集进行评估。

这里是一个 HEADLINES 数据集案例研究:设定预算为 6.5 美元,是 GPT-4 成本的五分之一。采用针对回归的 DistilBERT [SDCW19] 作为评分函数。值得注意的是,DistilBERT 比这里考虑的所有 LLM 都要小得多,因此成本较低。如图 3(a)所示,学习的 FrugalGPT 顺序调用 GPT-J、J1-L 和 GPT-4。对于任何给定的查询,它首先从 GPT-J 中提取一个答案。如果这个答案的分数大于 0.96,这个答案就被接受为最终的响应。否则,将对 J1-L 进行查询。如果 J1-L 的答案得分大于 0.37,则被接受为最终答案;否则,将调用 GPT-4 来获得最终答案。有趣的是,这种方法在许多查询中都优于 GPT-4。例如,基于纳斯达克的头条新闻「美国 GDP 数据惨淡,黄金脱离低点」,FrugalGPT 准确地预测了价格将下跌,而 GPT-4 提供了一个错误的答案(如图 3(b)所示)。

总体来说,FrugalGPT 的结果是既提高了准确率又降低了成本。如图 3 (c) 所示,其成本降低了 80%,而准确率甚至高出 1.5%。

LLM 的多样性

为什么多个 LLM API 有可能产生比最好的单个 LLM 更好的性能?从本质上讲,这是由于生成的多样性:即使是一个低成本的 LLM 有时也能正确地回答更高成本的 LLM 所不能回答的查询。为了衡量这种多样性,研究者使用最大的性能改进,也可以成为 MPI。LLM A 相对于 LLM B 的 MPI 是指 LLM A 产生正确答案而 LLM B 提供错误答案的概率。这个指标实质上是衡量在调用 LLM B 的同时调用 LLM A 所能达到的最大性能提升。

图 4 显示了所有数据集的每一对 LLM API 之间的 MPI。在 HEADLINES 数据集上,GPT-C、GPT-J 和 J1-L 都可以将 GPT-4 的性能提高 6%。在 COQA 数据集上,有 13% 的数据点 GPT-4 出现了错误,但 GPT-3 提供了正确的答案。尽管这些改进的上界可能并不总是可以实现的,但它们确实证明了利用更低廉的服务来实现更好性能的可能性。

 

成本节约

随后,研究者考察了 FrugalGPT 是否能在保持准确性的同时降低成本,如果能,又能降低多少。表 3 显示了 FrugalGPT 的总体成本节约,范围从 50% 到 98%。这是可行的,因为 FrugalGPT 可以识别那些可以由较小的 LLM 准确回答的查询,因此只调用那些具有成本效益的 LLM。而强大但昂贵的 LLM,如 GPT-4,只用于由 FrugalGPT 检测到的挑战性查询。

性能和成本的权衡

接着,研究者探讨了 FrugalGPT 实现的性能和成本之间的权衡,如图 5 所示,得出了几个有趣的观察结果。

首先,不同 LLM API 的成本排名并不是固定的。此外,更昂贵的 LLM APIs 有时会导致比其更便宜的同类产品更差的性能。这些观察结果强调了适当选择 LLM API 的重要性,即使在没有预算限制的情况下。

接下来,研究者还注意到,FrugalGPT 能够在所有被评估的数据集上实现平滑的性能 - 成本权衡。这为 LLM 用户提供了灵活的选择,并有可能帮助 LLM API 供应商节约能源和减少碳排放。事实上,FrugalGPT 可以同时降低成本和提高精确度,这可能是因为 FrugalGPT 整合了来自多个 LLM 的知识。

图 5 所示的例子查询进一步解释了为什么 FrugalGPT 可以同时提高性能和降低成本。GPT-4 在一些查询上犯了错误,比如例如(a)部分的第一个例子,但一些低成本的 API 提供了正确的预测。FrugalGPT 准确地识别了这些查询,并完全依赖低成本的 API。例如,GPT-4 错误地从法律陈述「现在是协调和规范我们在这个领域的案件的时候了」中推断出没有推翻,如图 5(b)所示。然而,FrugalGPT 接受了 GPT-J 的正确答案,避免了昂贵的 LLM 的使用,提高了整体性能。当然,单一的 LLM API 并不总是正确的;LLM 级联通过采用一连串的 LLM API 克服了这一点。例如,在图 5 (a) 所示的第二个例子中,FrugalGPT 发现 GPT-J 的生成可能不可靠,于是转向链中的第二个 LLM J1-L,以找到正确的答案。同样,GPT-4 提供了错误的答案。FrugalGPT 并不完美,仍有足够的空间来减少成本。例如,在图 5 (c) 的第三个例子中,链中所有的 LLM API 都给出了相同的答案。然而,FrugalGPT 不确定第一个 LLM 是否正确,导致需要查询链中的所有 LLM。确定如何避免这种情况仍然是一个开放的问题。 whaosoft aiot http://143ai.com 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25168.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用chatGPT生成一个带圆角的Container

我在项目中是想实现如图带圆角的Container,使用chatGPT生成步骤如下。 首先,生成渐变色的Container 生成的Container代码如下: Container(margin: EdgeInsets.fromLTRB(30, 0, 30, 0),height: 200.0,width: double.infinity,decoration: BoxD…

ChatGPT-4 如何改变 AI 市场及其对未来的影响?GPT版本及其差异

GPT-1 对比 GPT-2 对比 GPT-3。Chat GPT (Generative Pre-trained Transformer) 是一种高级自然语言处理模型,它使用机器学习算法来生成看起来像人类所写的文本。GPT模型的发展彻底改变了人工智能领域,特别是在语言处理领域。 多年来,已经发布了多个版本的 GPT 模型,每个版…

AI新风向标PaLm2?能否取代ChatGPT成为AI领域的老大

AI新风向标PaLm2? ​ 前几天Google发布了,PaLM2作为Google的下一代大型语言模型,它会取代ChatGPT成为更智能的AI工具吗? 关于PaLM2 ​ PaLM 2是Google的下一代大型语言模型,它建立在谷歌在机器学习和负责任的人工智能方面的突破…

部落冲突外挂

有人玩部落冲突吗,我这里有挂,加我qq3083413274,我给你。

最新最全文献下载网站:文献部落——一站式查找、下载文献!

来喽来喽! 小编带着新鲜出炉的“文献部落”来喽!同样是文献下载,凭啥只有他值得我推荐?还不是因为好用?!你以为只有SCI吗?太天真了!你往下看↓↓↓ 文献部落:http://459…

外文文献检索网站

1. Google scholar 网址: https://scholar.google.com.hk/?hlzh-CN 如今搜索论文的首选,可以在这里查看论文统计和引用参考文献,还能通过关注作者或者论文获得新论文更新提醒,以及利用自动化推荐来提供一个基本库 2. DBLP 网址…

COC部落冲突自动找鱼 python脚本

众所周知,最近COC被腾讯收购了,又整了一波活,花里胡哨的兵种都不认识了,这件事我不做评价吧。 图个新鲜感,高中几个哥们突然又玩起了部落冲突,打🐟一时爽,一直打🐟一直爽…

代码故事:汉德的救赎

我叫汉德(Handle),是一段程序代码,出生在日食之城埃地特(Editor)。 我诞生于伟大而荣耀的瑟维斯家族(Service),我们家族的格言是:“瑟维斯永不倒下。(Services never crash down.)”。 信仰 我们家族的信仰,哦,不对,应该是所有代码家族的信仰都是普瑞格兰姆神…

coc部落冲突脚本辅助工具,小曦coc,PHP随机数生成代码

什么是脚本? (1)脚本就是剧本 (2)脚本是普通的文本文件,是批处理文件 (3)脚本导演了一个序列事件的发生 (4)脚本让一个例行任务效率大幅提升 游戏脚本基本只…

英文文献调研方法综述

文章目录 1. 进行英文文献调研的理由2. 文献调研的纲要2.1. 文献调研的目的2.2. 文献调研的原则2.3. 文献调研的步骤 3. 常用的搜索平台及数据库3.1. 文献搜索平台3.1.1. Text Analyzer3.1.2. Web of Science3.1.3. Google Scholar3.1.4. CORE & DOAJ3.1.5. ProQuest 3.2. …

不用校园网如何下载论文文献|DOI号|文献免费下载

不用校园网如何下载论文文献|DOI号|文献免费下载 研究生人员在学校里避免不了要下载文献,有些文章,如果学校没有购买数据库,还要付费下载,挺鸡肋的,这里,我整理了一些自己收藏的网站…

jquery 中加入html代码,jquery实现动态添加html代码

先看下思导图,整体了解下,然后我们再来学习。 现在我们来看一下几段代码,然后根据这几段代码我们来学习一下如何正确的学习动态添加html。 一.html()方法 html函数的作用原理首先是移除目标元素内部的html代码,然后将新代码添加到目标元素。 第一段代码:function CommentB…

巨推荐!文献下载利器!6个网站可随时随地免费下载中文文献!

一、文献小镇 网址:http://www.sci-hub.ac.cn/ 文献小镇号称是中国版的SCI-HUB,界面同SCI-HUB一样简洁明了,可以采用URL,PMID/DOI等方式搜索下载文献。 下载英文文献,进入文献小镇首页,只需要在搜索框输入文章doi即可直接进入sci-hub的下载页面。当然,下方的学术网站也提…

chatgpt赋能python:Python如何下载电影?

Python如何下载电影? Python作为一种高级编程语言,通过其丰富的库和模块,可以轻松地完成各种任务,包括下载电影。以下是你需要知道的关键步骤。 了解电影下载网站 首先,你需要知道哪些网站提供电影下载。常见的电影…

chatgpt赋能Python-python_figsize默认大小

Python figsize默认大小:您需要知道的一切 Python作为一种流行的编程语言,被许多程序员用于数据科学、机器学习、Web开发等领域。在绘制图表时,matplotlib是Python最流行的绘图库之一。在使用matplotlib绘图时,默认情况下&#x…

chatgpt赋能python:Python画图坐标轴教程

Python画图坐标轴教程 Python是一种非常受欢迎的编程语言,可用于数据分析、机器学习、Web开发等领域。它也是一个强大的绘图工具。Python可以使用许多绘图库,如Matplotlib、Seaborn、Plotly等,来可视化数据和生成图形。 在这篇文章中&#x…

7 11 藏尾诗c语言,为你写诗:11种杂体诗,汉语太神奇

原标题:为你写诗:11种杂体诗,汉语太神奇 胸藏文墨怀如谷,腹有诗书气自华 杂体诗通指古典诗歌格律体以外的各种各样的诗体。 这些诗多把字形、句法、声律和押韵加以特殊变化,成为独出心裁的奇异之作,一般带有…

这20首诗词献给天下程序员们

转载自:程序员最幽默(ID:humor1024) 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 精彩回顾 ♡ 程序员究竟能干多少年? ♡ 互联网公司各岗位真实工作内容起底 ♡ 一次尴尬的采访和程序员的传奇脑洞&a…

Python做一个藏头诗生成器

前几天给大家介绍了有意思的藏头诗,今天我们就用Python来自己根据输入语句实现自动生成藏头藏尾诗吧。 整个诗句生成的逻辑是这样的,先根据输入语句爬取符合要求的诗句(来自百度汉语),再根据更多样化的需求定制“新诗”…

爬取B站多P视频

import requests from parsel import Selector import json, os, timeclass GetBv():def __init__(self, bvid, page1):bvid:视频号 eg:BV1hE411N7q2,strpage: P几的视频,默认为1 intself.bvid bvidself.page pageself.pg_dic, self.file_name, self.a…