GPT- 4 标注能力直逼人类,成本大砍90%,数据众包危矣?

人类标注员很可能将面临来自大语言模型的残酷冲击。

人工智能本身并不是很智能,这是一个公开的“秘密”。机器学习系统通常依赖低薪众包工人进行标注和微调,很难脱离“有多少人工,就有多少智能”的魔咒。

即便强大如谷歌、微软这样的大公司一直在极力宣称它们在人工智能领域的技术进步和速度,但现实是,他们所有的人工智能模型都依赖于乏味、低薪的人力劳动。

机器人会夺走众包工作吗?

最新研究表明,OpenAI 的 GPT-4 在标注任务方面优于熟练人类标注员,帮助研究团队节约超 50 万美元和 2 万个工时。

消息一出,立即引发关于众包业务未来前景的担忧。

研究表明,大语言模型在数据标注方面的能力正越来越强。

来自卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员调查了聊天机器人的“心理状态”发展趋势,却得出一个令人意外的附带发现:

OpenAI 的 GPT-4 在数据集标注表现上,优于他们雇用的最熟练的众包员工。这一突破为研究人员节约了超过 50 万美元和 2 万个工时。

成本驱动的创新方法

研究人员们需要对 57.2332 个文本场景进行标注,因此需要一种更具成本效益的任务解决方法。如果以每小时 25 美元的薪酬雇用 Surge AI 的顶级人工标注员,那么这项工作将耗时 2 万个小时、总成本达到 50 万美元,明显超过了研究工作的承受极限。

有些朋友可能还不熟悉,Surge AI 是一家风险投资支持的初创公司,曾为 OpenAI、Meta 和 Anthropic 等众多 AI 公司提供人工标注服务。

该团队测试了 GPT-4 使用自定义提示词进行自动标注的能力,得出的结论也非常明确:“模型的标注水平完全可以与人类相媲美。”

在对三位专家、三位众包员工以及 GPT-4 生成的标注进行比较之后,可以看到在测试的 2000 个数据点上,AI 创建的标签与专家标签基本相当,而且明显优于普通众包员工。除两个标签类别之外,GPT-4 在其他所有标注任务中的表现均优于人类标注员,有时甚至可达人类标注员的两倍。

GPT-4 表现出

强大的细微差别检测能力

这套 AI 模型在很多难以判断的行为类别中带来了出色表现,包括:

  • 非肢体伤害:意图造成非肢体类伤害,例如情感欺凌或恐吓

  • 窥探:监视或窃听他人

  • 背叛:违背约定、合同或承诺

利用 GPT-4 的标注功能以及组合模型方法以增强标签生成,研究人员有望以不足 5000 美元预算完全对 57.2322 个场景的标注,这意味着标注成本比人工标注节省了90%。

所谓组合模型,就是将多个 AI 模型的输出结合起来以产生更准确的结果。

研究论文的表 10 提到测试场景共涉及 18 种标签类别,GPT-4 标签在其中 16 种上表现更佳。

ChatGPT 在复杂标注任务上

超越顶级众包人员

就在两周之前,有报道称研究人员发现 GPT-3.5 在复杂标注任务上超越了 Mechanical Turk 的顶级众包员工。

苏黎世大学的研究人员 Fabrizio Gilardi、Meysam Alizadeh 和 Maël Kubli 将 OpenAI 的大语言模型 ChatGPT 与众包平台 Amazon Mechanical Turk(MTurk)做了对比,希望了解双方在为文本添加标签、帮助机器学习模型更好理解文本内容方面有哪些异同。

备注:MTurk 相当于劳务众包平台,申请人可以加入工作队列、等待任务分配。常见的工作内容就是区分照片的颜色,或者对图像中出现的动物进行分类。甲方可以付钱给亚马逊,再由亚马逊将工作拆分并外包给散户员工。最终,甲方得到经过标注的数据集,数字“农奴”们则拿到一点报酬。目前很多机器学习模型都是由 MTurk 生成的数据集训练而成。

三位研究人员表示,机器学习模型在内容处理和数据清洗方面的表现以及成本效益,已经超过了众包平台上的人类雇员。

学者们将自己的发现整理成了一篇论文,题为《ChatGPT 在文本标注任务方面优于众包标注员》(ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks)……把结论都给剧透完了。

使用由研究助理标注的 2382 条 Twitter 帖子组成的样本数据集,研究人员比较了 ChatGPT 和 MTurk 标注员在五个不同标注任务中的实际表现。

测试的内容,就是评估每条推文在关联性、立场、主题和问题框架等方面与内容审核取向是否相符(例如,现有内容审核机制能否限制争议言论、或者防止有害言论的传播)。

论文指出,“我们发现在五分之四的任务中,ChatGPT 的零样本准确率都高于 MTurk。此外,ChatGPT 的成本也远低于 MTurk:ChatGPT 处理这五个分类任务(共 25264 条标注)的总成本约为 68 美元,而 MTurk(共 12632 条标注)的成本约为 657 美元。”研究人员表示,按标注数量计算,ChatGPT 的单位成本约为 0.003 美元,只相当于 MTurk 的二十分之一,而且准确率还更高。

当然,所谓的更准确仍然不够准确。苏黎世大学政治学系政策分析教授、论文联合作者之一 Fabrizio Gilardi 在采访邮件中指出,ChatGPT 在某些任务中的准确率还不到 50%,但仍然优于 MTurk 众包雇员。

总而言之,对于想要保住这个饭碗的人类从业者来说,结论已经非常明确 — 别做梦了。

但 ChatGPT 能取代

人类标注员还为时过早

苏黎世大学政治学系政策分析教授、论文联合作者之一 Fabrizio Gilardi 也警告称,切勿对调查结果做过度的延伸和解读。

“当前认定 ChatGPT 能够取代人类工作者还为时过早。我们的论文只展示出 ChatGPT 在数据标注方面的潜力,但还需要更多研究才能充分探索 ChatGPT 在这一领域中的实际表现。”

Gilardi 谈到,必须跨越更多任务、数据和语言类型收集大量相关数据。另外,MTurk 的众包员工仍有自己的独特优势,比如调查研究、图像标注、音频与视频转录、可用性测试等等。在他看来,人类标注员也可以尽量借助 ChatGPT 这类模型来提高工作效率。

Gilardi 再次强调,仅仅是在此次研究的任务类型中,ChatGPT 似乎有望取代众包标注员。但这也非常正常,毕竟 ChatGPT 这类模型本就是在众包标注的数据集上训练而成,擅长这方面工作完全合乎逻辑。

另外,AI 软件接管这部分工作可能也有益于雇员的心理健康,此前已经有人类版主提起诉讼,宣称长期审查有毒内容已经对其造成了精神创伤。

不久前,一份报道曝出 ChatGPT 在构建内容过滤器时所使用的标注数据由其数据标注服务提供商 Sama 公司雇佣的肯尼亚工人完成,这些标注工人每小时收入的不足 2 美元。不止低薪,这些标注人员还面临精神上的压力,有多位 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。

Gilardi 提到,“对令人不快和苛刻的内容做数据标注确实会造成心理影响,例如仇恨言论检测,这些东西会令人类标注员陷入负面情绪。换句话说,ChatGPT 等工具,可能是取代或减少道德类人工标注需求的完美解决方案。

众包业务还有未来吗?

随着大语言模型(LLM)的快速发展,众包在各类机器学习业务中的作用可能会被替代。

最近几个月 AI 技术的迅猛发展令海量风险资金涌入其中,但众多企业在发布其语言模型时仍面临着巨大的成本压力。

自动化压力之下,众包从业者开始担心自己的未来。

众包标注初创公司 Surge AI,其“精英员工队伍”号称精通 40 多种语言。Surge AI 在其官网上写道,“我们为全球领先的 RLHF(基于人类反馈的强化学习)大语言模型提供支持”,还提到 AI 领域的多股中坚力量都是其客户。

RLHF,即基于人类反馈的强化学习,是 OpenAI 用于微调 ChatGPT 的一项技术,能够结合人类输入来引导模型的学习过程。目前,与 ChatGPT 竞争的其他大语言模型也都采用了 RLHF 技术。

但随着企业逐渐选择 AI 生成的标签、放弃人类标注员,其业务根基很可能将面临来自大语言模型的残酷冲击。

但倡导众包雇员权益的非营利组织 Turkopticon 领导者 Krystall Kuaffman,则始终坚信人类洞察力有其独特价值。

她在采访中表示,“写作的实质不只是生成文字,更是做出判断。在目前和可预见的未来,仍然需要由人类来执行判断工作。在解决一系列还没有答案的问题之前,我们不能信心满满地宣称 ChatGPT 的能力优于人类标注员。”

参考链接:

https://www.artisana.ai/articles/gpt-4-outperforms-elite-crowdworkers-saving-researchers-usd500-000-and-20

https://www.theregister.com/2023/04/03/chatgpt_boring_turk_jobs/

https://www.vice.com/en/article/ak3dwk/chatgpt-can-replace-the-underpaid-workers-who-train-ai-researchers-say

今日荐文

“心机boy”马斯克:明面上呼吁暂停先进AI研发,背地里悄悄买1万块GPU推进大模型项目

疯狂烧钱、管理混乱、竞争激烈,Stable Diffusion 背后企业濒临倒闭

在全球掀起史诗级的狂欢,ChatGPT真正颠覆了什么 ?| 深度

华为2022 年拿出 720 亿分红;谷歌亚马逊开高价鼓励欧洲员工自愿离职;国美 CTO 回应员工贷款上班 | AI 一周资讯

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27995.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Docker 更换镜像内部的软件源为国内源(apt-get源)

Docker 更换镜像内部的软件源为国内源(apt-get源) 1、查看镜像内部的软件源2、查看系统版本3、更换软件源3.1 在镜像内部更换3.2用Dockerfile构建时更换 1、查看镜像内部的软件源 rootb09e8f69dc59:/# cat /etc/apt/sources.list deb http://deb.debian…

国内镜像源详细使用教程!

WARNING: Retrying (Retry(total2, connectNone, readNone, 这些天一直肝金融学,脑子一直放空,看不太下去,于是乎就想股票的k线图,想着怎么下载k线图,然后从下载库开始就出现大问题了,就记录了一下自己这憨…

源、镜像、镜像源,更换镜像源apt-get、pip、conda 全部搞懂

源、镜像、镜像源,更换镜像源apt-get、pip、conda 全部搞懂 1. 源是什么?2. 镜像是什么?3. 镜像源是什么?4. 更换apt镜像源4.1 清华镜像源4.2 阿里镜像源 5. 更换pip源5.1 清华镜像源5.2 其他镜像源 6. 更换conda源6.1 清华镜像源…

【笔记】pip镜像源改为国内源(Windows、Linux、Mac)

pip镜像源修改 🏷简介🏷修改pip镜像源(Windows)🏷修改pip镜像源(Linux)🏷修改pip镜像源(Mac)🏷结语 🏷简介 当我们在使用Python的pip…

ubuntu更改镜像源(软件源)

更新Ubuntu软件下载地址 1. 寻找国内镜像源 所谓的镜像源:可以理解为提供下载软件的地方,比如Android手机上可以下载软件的91手机助手;iOS手机上可以下载软件的AppStore 2. 备份Ubuntu默认的源地址 sudo cp /etc/apt/sources.list /etc/apt/…

使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion

使用Amazon SageMaker构建高质量AI作画模型Stable Diffusion 0. 前言1. Amazon SageMaker 与机器学习1.1 机器学习流程1.2 Amazon SageMaker 简介1.3 Amazon SageMaker 优势 2. AIGC 与 Stable Diffusion2.1 步入 AIGC 时代2.2 Stable Diffusion 介绍 3. 使用 Amazon SageMaker…

上海首个大模型产业发展研讨会圆满落幕,众顶尖专家共探大模型产业

4月21日,由上海市数据科学重点实验室携手达观数据、上海浦东软件园联合举办的“大模型产业发展研讨会”圆满落幕。本次研讨会是继达观数据在北京、成都顺利举办“ChatGPT及大模型专题研讨会”后的又一场科技盛会,当天大会汇聚了大模型产业国际和国内顶尖…

李永乐六套卷-2021

可以猜,应该是2-a,a-2和1比较 AB显然正确 看哪个可以对角化,且特征值为2,2,-1 注意乘2x,所以我们关注x^3 要加C

李永乐线性代数手写笔记-向量

李永乐线性代数基础知识,整理放在博客上面,方便自己复习查看。 概览请移步李永乐线性代数2020年基础课手写笔记汇总 文章目录 一 基本概念和运算二 线性表示三 相关和无关四 向量组和矩阵的秩 一 基本概念和运算 二 线性表示 三 相关和无关 四 向量组和…

B站李永乐讲解傅里叶变换--笔记

笔记目录 引言一、变换&#xff08;一&#xff09;举例&#xff08;图像<---->坐标&#xff09;&#xff08;二&#xff09;标准正交基 二、傅里叶变换&#xff08;一&#xff09;傅里叶级数&#xff08;二&#xff09;连续傅里叶变换&#xff08;三&#xff09;应用 三、…

李永乐660高等数学极限题目技巧

本文内容为李永乐660极限题目技巧&#xff0c;源文件已经上传到我的资源中,有需要的可以去看看, 我主页中的思维导图中内容大多从我的笔记中整理而来,相应技巧可在笔记中查找原题, 有兴趣的可以去 我的主页 了解更多计算机学科的精品思维导图整理 本文可以转载&#xff0c;但…

李永乐说股票

1.每股净资产 净资产/股本数 2.市值 每股价格 x 股本数 3.市净率 市值/净资产 每股价格/每股净资产 市净率越高表示市场对股票认可越高&#xff0c;越高估 越低说明股票越低估 买入会赚得多 市净率低&#xff0c;相对安全,越值钱 市盈率 1.每股利润净利润/股本数 2.…

线性代数 李永乐强化班

一、理解线代物理意义 数字强调大小&#xff0c;线代强调方向 别的向量是基向量缩放得到的 向量不平行就线性无关吗 无关的向量可以张成一个子空间&#xff0c;即表示某一维度里面的任意一个向量 A特征向量特征值E*特征向量 标准基向量表示的特征向量换一种基向量任然是 相同的…

李永乐老师卷积神经网络

https://www.youtube.com/watch?vAFlIM0jSI9I 卷积过程 卷积核表示图像特征&#xff0c;比如一个右下的线条。 卷积核在图像上移动&#xff0c;做运算&#xff0c;就会得图像的特征图&#xff08;粉色的。有右下线条的地方数字会特别大。 卷积核的维度和数目 也有竖着的卷…

李永乐老师讲辛普森悖论

有个小朋友跟我说&#xff1a;他特别喜欢看篮球比赛&#xff0c;最喜欢的球星是湖人队的勒布朗詹姆斯。他曾经把詹姆斯和历史上的著名球员马龙做过比较&#xff0c;结果发现了一个神奇的现象&#xff1a;在整个生涯中&#xff0c;无论是二分球的命中率还是三分球的命中率&#…

李永乐讲卷积神经网络,李永乐老师讲人工智能

清华大学李永乐老师坐拥千万粉丝&#xff0c;他的课堂有什么魅力&#xff1f; 清华大学李永乐老师拥有上千万的粉丝&#xff0c;这个粉丝拥有量自己觉得很正常&#xff0c;因为每年都有上百万的学子关注这个老师&#xff0c;因为到考研的过程中有一个很大的难题就是数学。 无…

2022李永乐线性代数

2022李永乐线代视频教程 链接&#xff1a;https://pan.baidu.com/s/1oxWNn7o72l1SCtW4iszFGg 提取码&#xff1a;4r1e

“全球金融科技大会——中国金融业开源技术应用与发展论坛”在北京举行

3月28日&#xff0c;“全球金融科技大会——中国金融业开源技术应用与发展论坛”在北京新动力金融科技中心举行。 会议现场 人民银行科技司二级巡视员杨富玉&#xff0c;开放原子开源基金会理事长孙文龙&#xff0c;中国金电党委书记、董事长周逢民为大会致辞。北京市西城区区…

李永乐老师讲解MindSpore

参考&#xff1a;https://www.zhihu.com/zvideo/1452361569703718912 1、人工智能框架&#xff1a;不是从零开始编写&#xff0c;有些已经编好了放在那里了&#xff0c;做菜的厨师不会从种子开始做菜&#xff0c;建筑工人也不会从烧砖开始&#xff0c;总有一些工具是编号的&am…