OpenAI 的外包数据标注员,时薪不足2美元,称工作是“精神创伤”

744bbed9b3051fd1d08056c893dde998.jpeg

这是「进击的Coder」的第 810 篇技术分享

译者:核子可乐

策划:李冬梅

来源:infoQ

阅读本文大概需要 3 分钟。

ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子能理解的语言描述复杂的数学问题,可谓“无所不能”。

近日,TIME 发布了一篇独家报道,发现 ChatGPT 在构建内容过滤器时所使用的标注数据由肯尼亚工人完成,且每小时收入不足 2 美元。

根据作者 Billy Perrigo 的说法,数据标注员的任务是阅读和标注文本内容,从“互联网上最阴暗的角落”中提取“最血淋淋的细节表达,包括儿童性虐待、兽行、杀人、自杀、酷刑、折磨、自残和乱伦等内容。”

1. 外包数据标注工人时薪不到 2 美元

Perrigo 提到,根据资历和绩效,这些工人的最低税后时薪仅为 1.32 美元,最高税后时薪也不过 1.44 美元。英国广播公司 BBC 的一份报告估计,肯尼亚约有 75% 的工人住在非洲最大的贫民窟之一,内罗毕的基贝拉贫民窟。当地的失业率高达 50%,缺乏清洁水,也没有卫生设施可用。

承担这份外包工作的是 Sama(原 Samasource),一家位于旧金山的公司。该公司向来以建设“道德 AI”自居,号称要在数字工作与低收入人群之间搭设纽带。该公司在肯尼亚、乌干达和印度等地雇用人员,为谷歌、Meta 和微软等科技大厂提供数据标注服务。

作为 OpenAI 旗下最当红的聊天机器人,ChatGPT 采用的是升级版本的大语言模型 GPT-3.5。该聊天机器人于去年 11 月下旬首度亮相,推出不到一周就吸引到了超百万用户。ChatGPT 的用例包括数字内容生成、写作和代码调试。与其他同样基于 GPT-3.5 模型的前任服务一样,由于大量使用从互联网处采集到的训练数据,ChatGPT 极易输出有害内容。为了解决这个难题,OpenAI 必须为其开发内容过滤器。

2019 年,Sama 公司在肯尼亚雇佣大量工人,并声称帮助他们摆脱了贫困。

OpenAI 证实,Sama 公司雇用的肯尼亚员工确实在帮助 ChatGPT 过滤各种有害内容。该公司发言人表示,“我们的使命是确保人工通用智能有益于全人类的福祉,也一直在努力打造安全有用的 AI 系统、控制其中的偏见与有害内容。只有对有害(文本和图像)进行分类和过滤,才能最大程度减少训练数据中所包含的暴力和性内容,同时创建出能够检测有害内容的工具。”

2. “做这份工作是一种精神创伤”

TIME 还采访了四围名 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。有三名工人表示,他们每天需要阅读 150 到 250 条材料片段,这些段落的范围从 100 个单词到 1000 多个单词不等,算起来,平均每小时他们最多要阅读和标注超过 2 万个单词;但 Sama 对此表示质疑,称员工每天只需要审查 70 条片段即可。

TIME 在报道中提到,Sama 组织的三支数据标注团队中,每个小组都专注于一个主题。大多数成员的月工资为 170 美元,奖金最高不超过 70 美元。如果准确性特别高或者标注速度特别快,还能赚到额外的佣金。

报道称,以一天工作九个小时计算,那么税后时薪最低为 1.32 美元;如果能够达成所有考核要求,则时薪会略微上涨至税后 1.44 美元。Perrigo 还强调,肯尼亚不存在充分就业市场,所以很难对收入做出公平比较。不过在这批员工入职时,内罗毕接待员岗位的最低工资为每小时 1.52 美元。

Perrigo 发布推文称,“这样的工作条件也揭露出 AI 繁荣之下的阴暗面:AI 的发展,依靠的就是这群默默无闻的低薪工人。尽管他们为价值数十亿美元的新兴产业做出贡献,但仍然被严重边缘化。”随着微软与 OpenAI 的合作加深,OpenAI 的市场估值早已超过 300 亿美元(约 2072 亿元人民币)。

媒体 Quartz 也曾报道过此事,Sama 方面主动联系并对薪酬做了澄清,称其在东非地区设定的工资是其他内容审核公司的几乎两倍。“Sama 设定的月薪在 210 美元到 323 美元之间,达到肯尼亚最低工资的两倍以上,也远远超过了最低生活需求。相比之下,美国同类岗位的工资在每小时 30 至 45 美元之间。”

另外,Sama 还表示会为当地员工提供其他个人福利,包括咨询、冥想、祈祷、护理、游戏和本地艺术表演,“以及有益身心健康的全面餐饮服务”。但 TIME 在采访中得知,工人们为了完成每天的绩效考核,往往没时间去接受这些咨询指导。两位受访者表示,Sama 公司的管理层拒绝与他们一对一交流,转而用小组会议的形式代替。

2022 年 2 月,Sama 公司结束了与 OpenAI 间的服务合同,比预定计划提前的 8 个月。根据 TIME 的报道,双方的另一个数据标注项目已经启动,这次是处理包含非法内容的图像。OpenAI 发表了一份声明,称图像集中包含非法内容是因为沟通失误。

今年 1 月 10 日,Sama 公司宣布取消一切涉及敏感内容的剩余工作,包括与 Facebook 签订的价值 390 万美元的内容审核合同。接下来,Sama 将专注于为计算机视觉数据提供标注服务。

原文链接:
https://www.datanami.com/2023/01/20/openai-outsourced-data-labeling-to-kenyan-workers-earning-less-than-2-per-hour-time-report/

ea284a788b440486a05d10ab167cec17.png

End

崔庆才的新书《Python3网络爬虫开发实战(第二版)》已经正式上市了!书中详细介绍了零基础用 Python 开发爬虫的各方面知识,同时相比第一版新增了 JavaScript 逆向、Android 逆向、异步爬虫、深度学习、Kubernetes 相关内容,‍同时本书已经获得 Python 之父 Guido 的推荐,目前本书正在七折促销中!

内容介绍:《Python3网络爬虫开发实战(第二版)》内容介绍

9001f86dfb1822e69a29cc29f6227837.jpeg

扫码购买

72327accfa94537147c4e828283ebbf9.png

322279d0ff0ffe3c8c1b8e7ff2209d6a.png

点个在看你最好看

outside_default.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20482.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT用transformer算法在训练么

transformer算法是什么 Transformer 算法是一种用于序列处理的神经网络架构,首次在 2017 年的论文 "Attention is All You Need" 中提出。 它的主要特点是使用了注意力机制,能够自动学习到序列中重要的信息,并在计算时给予更多的…

推特营销引流入门指南

一、关注 当您关注另一个Twitter用户时,您进行订阅,即可立即阅读其内容分享。因此,请评估您关注的人,尤其是刚开始时。跟踪新用户的一种简单方法是找到他们的个人资料,然后单击“关注”按钮。 Twitter对于那些疯狂点…

亚马逊、阿里国际、Shopee、Temu等跨境电商平台测评自养号经验分享

对于亚马逊、temu、阿里国际等平台商家来说,流量非常重要。商家需要想办法提高流量。卖家店铺没有流量怎么办? 获取流量的第一点:自然搜索 自然搜索流量的来源实际上是通过站点的优化来提高排名的效果。站点优化有很多维度,如选择合适的关键…

跨境电商 | Facebook营销推广全攻略

Facebook 现已成为各种规模公司的强大营销工具,并提供不同的营销方式,包括 Facebook Business Page、群组和 Facebook 广告,帮助企业在目标受众中建立意识,与 客户并以有效且具有成本效益的方式推动销售。 本文将介绍营销策略、…

亚马逊、速卖通、temu、国际站卖家如何做自养号测评?干货分享

在跨境出口平台电商中,相信“刷单”是永远不会有消失的一天! 珑哥突然想到,如果我们中国没有“某宝”,会不会改变下我们国人做电商走捷径的思维呢!其实就算没有某宝,相信只要我们国人做,刷单的…

Google DeepMind掌舵人Demis Hassabis专访:合并后「超级单元」内幕,以及如何开展下一代模型研究...

导读 自2023年以来,Google旗下两大顶级人工智能研究团队 DeepMind 与 Google Brain 被不断推上风口浪尖,如何应对OpenAI与微软强强联合?如何组织不被看好的 DeepMind 与 Google Brain 团队合并?Google和OpenAI都没有护城河吗&…

Google DeepMind掌舵人Demis Hassabis专访:合并后「超级单元」内幕,以及如何开展下一代模型研究

Demis Hassabis:毕业于伦敦大学学院,DeepMind创始人。游戏开发者、神经学家和人工智能企业家,AlphaGo的创造者,帮助Google展开一场全新的人工智能革命。 DeepMind Google Brain 科学 工程 N 指代 Nilay Patel,Verg…

一周 AIGC 丨北京市率先出台 AIGC 产业政策,百度“放弃”元宇宙转向 AIGC

风口的转变是迅猛的、措不及防的、毫无情感的。2021 年是元宇宙元年,然而轰轰烈烈不到两年就成“昨日黄花”。曾经紧随 Meta 步伐,推出元宇宙“希壤”的百度转身将对标对象换成 OpenAI,发布文心一言大模型。地方政府及时调整产业政策&#xf…

大语言模型速查表;ChatGPT发展路线图;11条市场营销ChatGPT Prompt;使用Midjourney制作专属头像 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 大语言模型速查表 Large Language Model Cheat Sheet ShowMeAI知识星球资源编码:R115 本份速查表的制作目的,是…

CVPR2023论文速递(2023.3.23)!已接入ChatGPT总结!共26篇!

整理:AI算法与图像处理 CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo 欢迎关注公众号 AI算法与图像处理,获取更多干货: 大家好, 最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分…

衣柜收纳隔板问题

问买一个两列三行的收纳神器 图片如下 (有后盖无前盖) 连接格子如下 1/4圆 1/2圆 板子有两种底部与顶部均为正方形 侧边为长方形 问题 1 连接格子 多少个 2.板子多少个 以两列三行为例 先分析一层 假设是没有顶盖 最后加上 第一行 7个 三行总共21个 加…

多重收纳(类模板)C++

目录 题目描述 思路分析 AC代码 题目描述 现在我们要制作一种盒子,它能够收纳多种类型的元素,比如int、double、char、string等等。 我们每接收到一个数据都将它用这种盒子包装起来,然后放到同一个vector中。 为了能够包装不同类型的元…

AJAX框架衣柜收纳技巧,史上最强衣柜收纳神技!看完我一口气收拾了189件衣服……...

来源:有品生活 ID:pinpinlife 要说家里最容易乱的地方, 排第一位的肯定是衣柜了, 衣服不收好,出门翻箱倒柜都找不到, 找到脾气都上来了, 还谈什么开启一天好心情? 今天春姐姐就和大家…

概念收纳

凸 凸集的定义为: 其几何意义表示为:如果集合C中任意2个元素连线上的点也在集合C中,则C为凸集。其示意图如下所示: 常见的凸集有: n维实数空间;一些范数约束形式的集合;仿射子空间;…

win10桌面管理文件收纳_放心的电脑桌面收纳工具必备,电脑桌面win10应用商店

放心的电脑桌面收纳工具必备 可以用下面的方法恢复:在windows文献夹,或是其他文献夹中新建一个文本文献,文献名为“显示桌面”,或是另存为也可以,这时候文献图标就变成显示桌面的图标了,将其放入快速启动栏…

整理收纳的概念和意义

在各位心中,整理是否是一种“让杂乱无章的环境变得干净整齐”的行为呢?因为忙于工作,我们的家总是会在不知不觉中变得凌乱。很多人认为,整理是要等家里乱了之后才不得不进行的一种善后行为。但其实整理的初衷,并非单纯的善后希望…

软件测试工具收纳整理,最新收纳整理软件测评 什么值得用?!!

最新收纳整理软件测评 什么值得用?!! 2021-01-20 20:43:02 2点赞 0收藏 1评论 创作立场声明:在使用过一些收纳软件后的一些感受,分享给大家,希望对大家挑选适合自己的生活助手有所帮助。自己的东西多又杂不…

软件测试工具收纳整理,全网最良心的收纳整理App测评 抠细节抠到眼瞎!!!...

全网最良心的收纳整理App测评 抠细节抠到眼瞎!!! 2021-01-08 19:16:21 6点赞 36收藏 2评论 创作立场声明:我在本文中的软件测评来自自我使用后心得,希望能够与大家分享,做出一定帮助。 这款收纳神器&#x…

牛客 方块与收纳盒

题目链接 1001-方块与收纳盒_2021秋季算法入门班第七章习题:动态规划1 (nowcoder.com) 一道简单的线性dp的题目(入门题目) 题面分析:有一个n*1大小的盒子,你有无限个1*1和2*1的小方块,问你有几种方法可以把…

计算机桌面收纳盒进么建立,桌面收纳盒制作图解教程

1.喜欢这款公主收纳盒么很有点公主风吧,下面就教大家自制收纳盒DIY的方法-用包装纸盒制作一个公主风收纳盒制作方法 这上面看起来简单很随意的褶皱效果啊 可让我吃了一翻苦头的~~完成后呢 得意呢这儿一个那儿一个的到处找不到家的小家伙们统统收集进来~~可爱的指…