一次只要0.003美元,比人类便宜20倍!ChatGPT让数据标注者危矣

作者丨好困

来源丨学术头条

编辑丨新智元

点击进入—>3D视觉工坊学习交流群

【导读】最近,来自苏黎世大学的研究团队发现,ChatGPT在多个NLP标注任务上胜过众包工作者,具有较高一致性,且每次标注成本仅约0.003美元,比MTurk便宜20倍。

当前,很多自然语言处理(NLP)应用需要高质量的标注数据来支撑,特别是当这些数据被用于训练分类器或评估无监督模型的性能等任务中。

例如,人工智能研究人员通常希望过滤嘈杂的社交媒体数据的相关性,将文本分配到不同的主题或概念类别,或衡量其情绪或立场。

而且,无论这些任务使用什么具体方法(监督、半监督或无监督),都需要标注好的数据来建立一个训练集或黄金标准。

然而,在大多数情况下,要完成高质量的数据标注(data annotation)工作,依然离不开数据标注平台上的众包工作者或诸如研究助理等训练有素的标注者来手动进行。

通常情况下,训练有素的标注者先创建一个相对较小的黄金标准数据集,然后雇用众包工作者来增加标注数据的数量,进行重复性工作。根据规模大小和复杂程度,数据标注任务有时会非常费时费力,不仅需要花费一定的人力成本,而且也不能保证数据标注的质量。

那么,能否让机器帮助人类完成这一基础任务呢?

在以往的认知中,机器并不擅长这类「慢工出细活」的任务,但出乎意料的是,「数据标注」这件事已经让 ChatGPT 完成了,而且比大多数人做得还更好。

9a6075a05eed0d712f9eceb64dac0614.jpeg

在一项今天发表的新研究中,来自苏黎世大学的研究团队使用由 2382 条推文组成的样本,证明了 ChatGPT 在相关性、主题和框架检测等标多个注任务上优于众包工作者。

相关研究论文以「ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks」为题,已发表在预印本网站 arXiv 上。

具体来说,ChatGPT 在五项任务的四项中的零样本(zero-shot)准确率超过了众包工作者;在所有任务中表现出的编码者间一致性(intercoder agreement)方面,ChatGPT 不仅超过了众包工作者,也同样超过了训练有素的标注者。

04e4e5af90a2cc4b0ab519bac79638f5.png

ChatGPT 零样本文本数据标注表现

值得一提的是,ChatGPT 的每个标注成本只有不到 0.003 美元,而比数据标注平台便宜约 20 倍。

研究团队认为,虽然需要进一步的研究来更好地了解 ChatGPT 和其他 LLMs 在更广泛的背景下的表现,但该研究结果表明,它们有可能改变研究人员进行数据注释的方式,极大地提高文本分类的效率,并破坏数据标注平台的部分商业模式。

至少,从目前来看,这些发现表明了更深入地研究 LLMs 的文本标注特性和能力的重要性。

未来,研究团队将在 ChatGPT 在多种语言中的表现、ChatGPT 在多种类型的文本(社会媒体、新闻媒体、立法、演讲等)中的表现、使用思维链(CoT)提示和其他策略来提高零样本推理的性能等方面继续努力。

值得一提的是,研究团队在进行这项工作时,OpenAI 还没有发布 GPT-4,如果让 GPT-4 来完成数据标注任务,又会是怎样的结果呢?

参考资料:

https://arxiv.org/abs/2303.15056

本文仅做学术分享,如有侵权,请联系删文。

点击进入—>3D视觉工坊学习交流群

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
2.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
3.国内首个面向工业级实战的点云处理课程
4.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
5.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
6.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
7.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

8.从零搭建一套结构光3D重建系统[理论+源码+实践]

9.单目深度估计方法:算法梳理与代码实现

10.自动驾驶中的深度学习模型部署实战

11.相机模型与标定(单目+双目+鱼眼)

12.重磅!四旋翼飞行器:算法与实战

13.ROS2从入门到精通:理论与实战

14.国内首个3D缺陷检测教程:理论、源码与实战

15.基于Open3D的点云处理入门与实战教程

16.透彻理解视觉ORB-SLAM3:理论基础+代码解析+算法改进

17.机械臂抓取从入门到实战

重磅!粉丝学习交流群已成立

交流群主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、ORB-SLAM系列源码交流、深度估计、TOF、求职交流等方向。

扫描以下二维码,添加小助理微信(dddvisiona),一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

94c1a9fd0cb175742bfb155e993ccfee.jpeg

▲长按加微信群或投稿,微信号:dddvisiona

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)源码分享、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答等进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,6000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看,3天内无条件退款

531368f7eb1a261f28f375c48a514046.jpeg

高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15042.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第2章信息技术发展

信息技术是在信息科学的基本原理和方法下,获取信息、处理信息、传输信息和使用信息的应用技术总称。从信息技术的发展过程来看,信息技术在传感器技术、通信技术和计算机技术的基础上,融合创新和持续发展,孕育和产生了物联网、云计…

ES+Redis+MySQL,这个高可用架构设计太顶了!

大家好,我是宝哥! 背景 会员系统是一种基础系统,跟公司所有业务线的下单主流程密切相关。如果会员系统出故障,会导致用户无法下单,影响范围是全公司所有业务线。所以,会员系统必须保证高性能、高可用&#…

私有云到底是不是云?

私有云是不是云?这是一个问题。 大部分认为私有云不是云的人都是出于自身利益的立场,试图抹黑私有云。虽然私有云在某些场景下功能不如公有云强大,但否定私有云就像否定残疾人的人类地位,或者否认个人电脑是计算机一样。 尽管私有…

借由Net5.5G,看到运营商的新沧海

我们都记得这样一句诗:“东临碣石,以观沧海”。 想要看到沧海的壮阔波澜,就先要抵达碣石山这样可以看到大海的地方。在数字化的发展过程中,往往一个技术或产业趋势就是一座碣石山,借由它可以看到描绘着未来机遇的新沧海…

面向对象编程之父 | 历史上的今天

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 5 月 17 日,在 1969 年的今天,国际电信联盟第二十四届行政理事会正式通过决议,决定把国际电信联盟的成立日—5 月 17 日定为…

通过chatGPT学习:L2网络和L3网络?

下面的总结是通过chatGPT4进行的。 1、 L2网络和L3网络 L2网络和L3网络是计算机网络中的两种不同的网络类型,它们有一些不同的特点和应用场景。 L2网络,也被称为数据链路层网络, 主要是通过物理地址(MAC地址)来转发…

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT

【NLP文章阅读】Zero-Shot Information Extraction via Chatting with ChatGPT 1 模型创新2 前期调研2.1 难以解决的问题 3 Method3.1 方法3.2 数据集3.2.1 RE3.2.2 NER3.2.3 EE 3.3 评价指标3.3.1 RE3.3.2 NER3.3.3 EE 4 效果 转载和使用规则:更多论文解读请关注&a…

OSI模型七层

【ChatGPT】前些天发现了一个巨牛的人工智能学习电子书,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。(点击查看学习资料) OSI将计算机网络体系结构(architecture)划分为以下七层&#xff…

【时间之外】系统管人,能行?(冷眼旁观连载之三)

这次是这个系列的第三篇。最近一直在搞chatGPT的应用,在写代码这方面,GPT真的很牛,几乎没有它不会的问题,简直比雇了一个高级程序员还好,而且是724小时,永不休息! 回到主题,下面继续…

在群晖中部署VoceChat

一、简介 VoceChat 是一款支持独立部署的个人云社交媒体聊天服务。15MB 的大小可部署在任何的服务器上,部署简单,很少需要维护。前端可以内嵌到自己的网站下,数据完全由用户自己掌握,传输过程加密。VoceChat 从 Slack, Discord, …

Midjourney AI绘画中文教程详解(完整版)模型、命令、参数与各种高级用法

我有一种预感,您一下子看不完这篇内容,您得【收藏】一下,以便下次接着看~~ Midjourney AI绘画中文教程,Midjourney是一款2022年3月面世的AI绘画工具,创始人是David Holz。 只要输入想到的文字,就能通过人…

Midjourney Discord的使用手册

探索Midjourney之旅,学习绘画与AI,一同成长。加入「阿杰与AI」公众号,参与内容社群建设。 1.Midjourney 新手快速起步指南2.Prompts-提示指令3.Explore Prompting-提示指令的探索4.Blend-叠加5.Midjourney Discord的使用手册6.Versions-版本…

ChatGLM-6B 部署与 P-Tuning 微调实战

自从 ChatGPT 爆火以来,树先生一直琢磨想打造一个垂直领域的 LLM 专属模型,但学习文本大模型的技术原理,从头打造一个 LLM 模型难度极大,所以这事儿就一直搁置了。 但最近一个月,开源文本大模型如雨后春笋般接踵而至&…

chatgpt赋能python:Python如何打开Word文档?

Python 如何打开 Word 文档? Python 是一种强大的编程语言,可以帮助我们完成各种重复性工作,其中包括自动化文件的处理。在这篇文章中,我们将学习如何使用 Python 打开 Word 文档。本文将介绍三种不同的方式:使用 Pyt…

chatgpt赋能python:Python创建Word文档指南

Python创建Word文档指南 在今天的数字时代,Word文档仍然是最常见和使用的文档类型之一。Python是一个强大的编程语言,可以用于自动化创建各种类型的文档,包括Word文档。在本篇文章中,我们将介绍如何使用Python创建Word文档&#…

奇舞周刊第486期:ChatGPT 的狂飙之路

记得点击文章末尾的“ 阅读原文 ”查看哟~ 下面先一起看下本期周刊 摘要 吧~ 奇舞推荐 ■ ■ ■ ChatGPT 的狂飙之路 最近随着 ChatGPT 爆火出圈,网络上各种关于 ChatGPT 的争论声也不断;有些人把它当成一个更高级的聊天机器人,有人兴奋地看到…

ChatGPT 如何应用于决策?Rationale 带你狂飙!

ChatGPT 回答多领域问题的能力之强悍,引发了全球关注。许多人将 ChatGPT 视为对话式 AI 或生成式 AI 发展史上的一个重要里程碑。从 ChatGPT 本身的生产力来看,它可以帮助人们完成很多事,比如写项目申报书、写股票查询代码,甚至写…

Nature | 奇病毒(Mirusviruses)将疱疹病毒与巨型病毒联系起来

奇病毒(Mirusviruses)将疱疹病毒与巨型病毒联系起来 Mirusviruses link herpesviruses to giant viruses 翻译:周之超UW-Madison Article,2023-4-19,Nature,[IF 69.504] DOI:10.1038/s41586-023…

HOG特征

01 什么是HOG特征 1.1 HOG特征简介 我们先来从字面入手分析一下HOG特征的名字。 HOG特征是图像的一种特征,图像的特征其实就是图像中某个区域的像素点在经过某种四则运算后所得到的结果。 它可以是一个具体的数值,可以是一个向量,可以是…

chatgpt赋能Python-python_span_抓取

介绍 随着互联网的不断发展,SEO(搜索引擎优化)已成为所有网站主人必须面对的问题。在SEO中,抓取是一个非常重要的环节,也是一个关键性的步骤,它直接影响到网站的排名。 在Python编程中,有很多…