ChatGPT背后的标注人:在非洲只管「鉴黄」!时薪不到两美元...

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>CV微信技术交流群

转载自:机器之心 | 选自《TIME》

最先进的 AI 技术,背后还是原始的劳动。

ChatGPT 是去年热度最高的科技创新之一,这种强大的人工智能几乎可以生成任何主题的文本,既可以与人对话聊天,也会编程、参与考试、写诗搞艺术,在上线一周的时间内就拥有了上百万用户。

在 ChatGPT 一炮而红之后,OpenAI 现在正在与投资者谈判估值 290 亿美元的融资,其中微软要投 100 亿美元。如果这次融资成功,OpenAI 将成为世界上最有价值的人工智能公司之一。

然而成功的故事不止有技术天才和资金,美国《时代》杂志最近的一项调查发现,为训练 ChatGPT,OpenAI 使用了每小时收入不到两美元的肯尼亚外包劳工。

在 AI 模型训练过程中使用人工标注非常重要,特别是对于 ChatGPT 这样的语言模型,如果不加规制,AI 经常会出口成脏,性别歧视或者发表种族主义言论。这是因为人工智能接受的是从互联网上收集的数千亿个单词的训练。

庞大的训练数据集是 GPT-3 拥有强大语言能力的原因,但也可能是它背负的最大诅咒。互联网在拥有知识的同时也存在恶意和偏见的内容,没有什么清除训练数据负面部分的简单方法,即使是一个由数百人组成的团队也需要数十年的时间才能手动浏览庞大的数据集。只有通过建立一个额外的人工智能驱动的安全机制,OpenAI 才能控制这种危害,生产出适合日常使用的聊天机器人。

为了构建这样的系统,OpenAI 借鉴了 Facebook 等社交媒体公司的做法,思路很简单:构建一个额外的 AI 模型,向它提供带有暴力、仇恨言论等标签的示例,让它学会识别有害内容。该检测器会被内置到 ChatGPT 中,以检测输出内容是否反映了其训练数据的问题,并在它到达用户之前将其过滤掉。它还可以帮助人们给未来 AI 模型的训练数据集中清除有毒文本。

为了获得这些标签,OpenAI 在 2021 年 11 月开始向肯尼亚的一家外包公司发送了数万个文本片段。其中大部分文本似乎是从互联网最黑暗的角落提取的。其中一些以生动的细节描述了各种情况。OpenAI 在肯尼亚的外包合作伙伴是 Sama,这是一家总部位于旧金山的公司,在肯尼亚、乌干达和印度雇用员工为谷歌、Meta 和微软等硅谷客户标记数据。

Sama 将自己定位为一家「有道德的」AI 公司,并声称已帮助超过五万人摆脱了贫困。

d98616f756ba1bffc4a87cc3ba248c0b.png

根据资历和表现,Sama 代表 OpenAI 雇用的数据标注员的实得工资约为每小时 1.32 美元至 2 美元。对于这个故事,时代周刊审查了数百页 Sama 和 OpenAI 的内部文件,包括员工的工资单,并采访了参与该项目的四名 Sama 员工。出于对生计的担忧,所有人都不愿透露姓名。

为 AI 做标注是个体力活,此前这种工作时而会被媒体报道,在模型体量不断膨胀的当前,为 ChatGPT 进行标注的故事让我们得以感受到 AI 领域另一面的现状,它在使 AI 技术能为公众使用的过程中发挥了至关重要的作用。

「尽管这些数据人员发挥了基础性作用,但越来越多的研究揭示了这些工人面临的不稳定工作条件,」OpenAI 所属的 AI 组织联盟 the Partnership on AI 表示。「这可能是在庆祝技术效率提升时试图隐藏 AI 对庞大劳动力的依赖的结果。」

OpenAI 没有透露与它合作的外包商的名字,我们也不清楚除 Sama 之外,OpenAI 是否与其他数据公司在此项目上合作过。

在一份声明中,OpenAI 的一位发言人证实了肯尼亚的 Sama 员工为其正在构建的一种检测有害内容的工具做出了贡献,且该工具最终被内置到 ChatGPT 中。该声明还表示,这项工作有助于从 ChatGPT 等工具的训练数据集中删除有害数据。「我们的使命是确保通用人工智能造福全人类,我们努力构建安全可用的人工智能系统,限制偏见和有害内容,」发言人表示。「对有害『文本和图像』进行分类和过滤,是减少训练数据中包含暴力和色情内容数量以及创建可检测有害内容的工具的必要步骤。」

虽然目前科技领域因为经济低迷预期增长速度有所放缓,但投资者仍在竞相向 AIGC(智能内容生产)投入大量资金和精力,OpenAI 是科技行业中无可争议的领导者。人们乐观地估计认为,计算机生成的文本、图像、视频和音频将改变无数行业的运行方式,从而提高从创意艺术、法律到计算机编程等各个领域的效率。 

然而,数据标注员的工作条件揭示了这幅未来图景的阴暗面:尽管 AI 实现了突破,但它往往依赖于低价的人力劳动,而这些劳动往往具有破坏性和剥削性。即使他们的工作为价值数十亿美元的行业做出贡献,这些隐形工人仍然处于边缘地位。

一位负责为 OpenAI 阅读和标记文本的 Sama 工作人员表示,他在阅读了一些需要标注的负面内容后反复出现幻觉。「那是一种折磨,」他说。「整个星期你都会读到很多这样的内容。到周五的时候,你会因为想那张照片而感到不安。」这项工作的创伤性最终导致 Sama 在 2022 年 2 月取消了其为 OpenAI 所做的所有工作,比计划提前了八个月。

Sama 签约的合同

媒体调查显示,OpenAI 在 2021 年底与 Sama 签署了三份总价值约 20 万美元的合同,为性虐待、仇恨言论和暴力的文本描述添加标签。三十余名工人被分成三个小组专注于每个主题。三名员工告诉时代周刊,他们预计每 9 小时轮班阅读和标记 150 至 250 段文字。这些片段的范围从大约 100 个单词到 1000 词不等。四名被采访者均描述了这项工作在精神上留下的伤痕。虽然他们有权参加「健康」顾问的会议,但所有人都表示,由于工作效率的高要求,这些会议没有帮助而且很少见。

Sama 发言人在一份声明中表示,员工只能参加小组会议的说法是「不正确的」。发言人说,员工有权与「受过专业培训并获得许可的心理健康治疗师」进行个人和小组会议。发言人补充说,这些治疗师随时都可以联系到。

合同规定,OpenAI 将向 Sama 支付 12.50 美元的小时费率,这是该项目的 Sama 员工每小时带回家的工资的六到九倍。据 Sama 三名员工称,代理人是最初级的数据标记员,占三个团队的大部分,他们的基本工资为每月 2.1 万肯尼亚先令(约 170 美元)。由于工作的明确性,他们每月还会收到价值约 70 美元的奖金,并会因达到准确性和速度等关键绩效指标而获得佣金。 

一名工作 9 小时轮班的代理人预计税后每小时总收入至少为 1.32 美元,如果超过所有目标,则最高可达每小时 1.44 美元。质量分析师 —— 更高级的标签员,他们的工作是检查代理人的工作 —— 如果他们达到所有目标,他们每小时最多可以赚 2 美元。(肯尼亚没有普遍的最低工资标准,但当时这些工人受雇在内罗毕,最低工资是每小时 1.52 美元。)

在一份声明中,Sama 的一位发言人表示,工人被要求每 9 小时轮班标记 70 篇文本段落,而不是最多 250 篇,而且工人税后每小时的收入在 1.46 美元到 3.74 美元之间。该发言人拒绝透露哪些职位的薪水会达到该范围的最高水平。该发言人补充说:「该项目 12.50 美元的费率涵盖了所有成本,例如基础设施费用,以及员工及其全职质量保证分析师和团队负责人的工资和福利。

OpenAI 发言人则在一份声明中表示,该公司没有发布任何生产力目标,Sama 负责管理员工的薪酬和心理健康规定。该发言人补充说:「我们非常重视员工和承包商的心理健康。我们之前的理解是 Sama 提供健康计划和一对一的心理咨询,员工可以选择退出任何工作而不会受到惩罚,暴露露骨内容是有限制的,敏感信息将由经过专门培训的员工处理。」

在日常数据标记工作中,有时会出现边缘案例,这表明教机器理解细微差别的难度很大。

OpenAI 与 Sama 的关系是如何破裂的?

2022 年 2 月,Sama 和 OpenAI 开展了一项合作,但合作过程并不愉快。起初,Sama 为 OpenAI 的一个单独项目进行试点工作:收集色情和暴力图像(其中一些根据美国法律是非法的)提供给 OpenAI。其中,标记图像的工作似乎与 ChatGPT 无关。

OpenAI 发言人没有具体说明该公司从 Sama 寻求这些图像的目的,但 OpenAI 在一份声明中表示标记有害图像是让其 AI 工具更安全的「必要步骤」。 

根据《时代周刊》报道,一份账单文件显示 2 月 Sama 给 OpenAI 交付了一批 1400 张图像的样本,OpenAI 共向 Sama 支付了 787.50 美元。

但很快,Sama 就取消了为 OpenAI 所做的所有工作 —— 比合同约定的时间提前了八个月。Sama 在一份声明中表示,其为 OpenAI 收集图像的协议中没有提及任何非法内容,而且是在工作开始后,OpenAI 才向 Sama 发送了「附加说明」,其中提及「一些非法类别」。Sama 公司决定立即结束这项「图像分类」合作,并取消所有剩余的 OpenAI 项目。

今年 1 月 10 日,Sama 宣布将取消所有涉及敏感内容的剩余工作。此外,该公司还表示不会与 Facebook 续签价值 390 万美元的内容审核合同,这将导致内罗毕大约有 200 个工作岗位流失。 

Sama 公司在一份声明中表示:「在与我们的全球团队进行多次讨论后,Sama 决定退出『自然语言处理』及其内容审核工作,专注于构建计算机视觉数据标注解决方案。过去一年,我们一直在与客户合作过渡这些业务,并将于 2023 年 3 月完成所有变更。」

然而,人工智能系统仍然需要人工标记数据,至少目前是这样。就像人工智能伦理学家 Andrew Strait 最近在推特上说的:「ChatGPT 等生成模型并不神奇,它们依赖于大量的人力供应链和搜集数据,其中大部分数据是未经授权和未经同意使用的。而 OpenAI 并没有解决这些严重的基础问题。」

参考内容:

https://www.reddit.com/r/MachineLearning/comments/10gtruu/n_openai_used_kenyan_workers_on_less_than_2_per/

https://time.com/6247678/openai-chatgpt-kenya-workers/

 

点击进入—>CV微信技术交流群

CVPR/ECCV 2022论文和代码下载

 

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/13482.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT初体验——引发一场搜索引擎的革命已箭在弦上

( openAI注册需要接码,国内无法提供服务,需要学会科学上网&找到合适的接码网站) 正文: 人工智能发展至今,在许多领域都取得了显著的成就。通过机器学习算法的运用,人工智能系统能够…

从0到1:入门 ChatGPT 和 GPT-4

目录 第一课:ChatGPT那些事 01 基本概念 ChatGPT动机 ChatGPT发展线路 ChatGPT技术手段

GPT-4震撼来袭,高级推理能力远超ChatGPT

GPT-4来了!这是一款被广泛期待的强大模型,它将成为人工智能领域的新里程碑。OpenAI老板Sam Altman直接开门见山地介绍说:这是我们迄今为止功能最强大的模型! GPT4一经发布,OPENAI和微软的股价都随之上涨,但…

【NLP】国外新动态--LLM模型

一、说明 NLP走势如何?这是关于在实践中使用大型语言模型(LLM)的系列文章中的一篇文章。在这里,我将介绍LLM,并介绍使用它们的3个级别。未来的文章将探讨LLM的实际方面,例如如何使用OpenAI的公共API,Hugging Face Transformers Python库,如何微调LLM,以及如何从头开始…

数字化的今天我们应该了解哪些数据技术(1)--大数据的发展

公号:数元斋 数字化转型、数据治理、解决方案、信息化内容、大数据、技术架构、技术文章、咨询服务、专业培训等内容分享 今天我们提及数据治理、数字化等已经身处其中,认为理所当然。任何事物的发展都被趋势裹挟向前。但想站的高,一定要对整…

“国产类 ChatGPT ”所存在的差距与挑战-专家圆桌

内容来源:ChatGPT 及大模型专题研讨会 转载自CSDN稿件 在经历寒冬、雾霾,甚至大家纷纷看不到希望之际,ChatGPT 犹如一场春雨,给做 AI 甚至 NLP 等研究的人带来了新的希望。 3 月 11 日,由中国人工智能学会主办&#…

小祁的笔记

编程题: 输入一个正整数,能够识别输出是几位数。 package cn.qhk;import java.util.Scanner; public class Code_1_1 {//1. 输入一个正整数,能够识别输出是几位数。public static void main(String[]args){Scanner scnew Scanner(System.in…

第61篇:使用chatGPT猜测未知的api接口实现及提交参数|对api接口的进一步利用

Part1 前言 大家好,我是ABC_123,公众号正式更名为”希潭实验室”。今天晚上喝了一大杯青岛的散装原浆啤酒,心情大好,回来之后,和老哥讨论了一个关于Springboot的Actuator信息泄露漏洞的利用,虽然最终没有拿…

某大型啤酒企业:构建网络安全软实力,首选Coremail反钓鱼演练

客户背景 某大型啤酒厂商的公司规模和市场份额多年来始终都处于行业领先地位,积极赞助多项体育赛事,持续丰富和提升品牌形象。作为一家具有全球影响力的企业,自然也成为了全球黑客等攻击团伙的重点目标,而系统攻击的开端便是钓鱼…

50万买只波士顿动力机器狗,只为训练它“尿”啤酒,还让女朋友尝尝

晓查 杨净 发自 凹非寺 量子位 报道 | 公众号 QbitAI 花50万元,买下波士顿动力机器狗,只为训练它“撒尿”,有钱人的世界都这么枯燥了? 著名YouTube科技博主Michael Reeves真的这么做了,他拍的视频发布仅24小时后&#…

GPT专业应用:撰写工作简报

●图片由Lexica 生成,输入:Workers working overtime 工作简报,作为一种了解情况、沟通信息的有效手段,能使上级机关和领导及时了解、掌握所属部门的政治学习、军事训练、行政管理等方面的最新情况;同时,能…

把ChatGPT (野猫),养成家猫(企业专用的ChatGPT)

如何把ChatGPT (野猫),养成家猫(企业专用的ChatGPT) 呢? 我目前的建议是:开发自己的Graph AI (本家丫环),搭配ChatGPT (外来的格格)。丫环的背后,我建了企业KG(知识图谱)来支持Graph AI model 。给最终用户更广的c…

Chatgpt探索分享2:Chatgpt,你身边的“最佳辩友”

正在上传…重新上传取消 ChatGPT云炬学长 公众号:云炬网络 Chatgpt的辩论探索,可以一定程度上提高以下几个方面的能力:1、训练逻辑思辨的能力2、训练系统提问的能力3、训练有效表达的能力在现实生活中,要锻炼以上三种能力&…

Chatgpt探索分享1:如何用chatgpt,两小时内搞懂一个行业

v 正在上传…重新上传取消 ChatGPT云炬学长 1 人赞同了该文章 我个人工作的特点,需要不断地了解新的行业和领域,之前有学习过麦肯锡的“100关键词”的方式,去了解一个全新的领域。不过这个方式时间成本比较高,对搜索能力的要求…

使用chatgpt探索XSS问题

首先问的问题是:XSS的类型有哪些?如何有效地预防? 回答的结果来看,还是比较中规中矩的。 紧接着,第二个问题:“XSS的三种类型的区别是什么?” 只是从形成原理上分析了不同,但是&…

ChatGPT探索系列之五:讨论人工智能伦理问题及ChatGPT的责任

文章目录 前言一、安全二、隐私和道德三、我们应该做什么总结 前言 ChatGPT发展到目前,其实网上已经有大量资料了,博主做个收口,会出一个ChatGPT探索系列的文章,帮助大家深入了解ChatGPT的。整个系列文章会按照一下目标来完成&am…

ChatGPT 探索:Code Interpreter 高级指南;OpenAI发布ChatGPT的代码解释器功能

🦉 AI新闻 🚀 OpenAI发布ChatGPT的代码解释器功能,提供更好的交互式编程体验和数据可视化功能 摘要:OpenAI推出了ChatGPT的新功能——代码解释器,为用户提供更好的交互式编程体验和强大的数据可视化功能。用户只需用…

ChatGPT 出现报错 ERROR: Too many requests in 1 hour. Try again later.我的解决方法,2023 1月8日

下面这个方法我试了没用 首先,需要清空你自己用浏览器的cookies,我用的edage,点击设置 然后clash启用TUN模式,注意不要选香港,选欧美国家 然后登录chatgpt进去就行了,可以一直问了 最近人好多,…

又有新动作 ChatGPT推出插件功能,并开源

北美时间3月23日,Open AI在官网宣布推出ChatGPT插件功能,同时开源知识库检索插件源代码!(插件申请地址:https://openai.com/waitlist/plugins)欢迎使用体验【V起来助手】ChatGPT插件、AI单聊、AI作画等等&a…