独家 | 我们都是AI免费的数据劳动力(附链接)

c5b89dd95df7eb6703f4d7cf0178eb52.png

作者:Melissa Heikkilä
翻译:李洪君
校对:王晓颖本文约1700字,建议阅读5分钟AI聊天机器人的回答听起来聪明、少涌现些有害又无意义的言论的秘诀,在于使用一种从人类反馈的强化学习技术。

e27af9762e93d8cff797de54b4095714.png

ANNA SOROKINA

让AI聊天机器人的回答听起来聪明、少涌现些有害又无意义的言论的秘诀,在于使用一种从人类反馈的强化学习技术,即通过人类的输出来改进模型的回答。

这项技术依赖于一小部队人工数据标注师,他们会评估某段文本是否符合逻辑、或者听起来是否流利自然,然后再决定是否将该文本在AI模型的数据库中保留或删除。

即便是最令人印象深刻的AI聊天机器人,也需要数千小时的人工才能使其按照创建者的意愿行事,并且就算如此,它们的表现依然不太可靠。这项工作可能是残酷和令人沮丧的,正如我们将在本周进行的关于公平、问责和透明性的ACM会议(FAccT)上听到的一样。这个会议汇集了我喜欢介绍的一些研究,例如如何使AI系统更具问责性和道德性。

我期待有AI伦理学先驱者Timnit Gebru的那个部分,他在被解雇之前曾经共同领导过谷歌的AI伦理部门。Gebru将讲述在埃塞俄比亚、厄立特里亚和肯尼亚工作的数据工作者如何被剥削以便清理网络上的仇恨与虚假信息。例如,肯尼亚的数据标注员每小时收入不到2美元,但他们却需要筛选掉大量有关暴力和性虐待等负面的内容,以减少ChatGPT的有害性。目前,这些工作者正在组织工会以争取更好的工作条件。

在去年的《MIT Technology Review》系列文章中,我们探讨了人工智能正在如何创造一种新殖民式的世界秩序,而数据工作者正在承受这其中的沉重压力。随着ChatGPT、Bing、Bard等受欢迎的AI聊天机器人以及DALL-E 2和Stable Diffusion等图像生成AI的兴起,揭示围绕AI的剥削性劳动变得愈发的紧迫和重要。

数据标注员参与了AI开发的每个阶段,从训练模型到验证输出再到提供反馈,才使得在模型发布后进行微调成为可能。伦敦城市大学的劳动实践博士研究员Srravya Chandhiramowuli表示,数据工作者经常被迫以极快的速度工作,以满足高目标和紧迫的截止日期。

“认为在没有人类干预的情况下就可以构建这些大规模系统的观念是绝对错误的,”Chandhiramowuli说道。

数据标注员为AI模型提供了其需要的重要背景信息,使其能够规模化地做出复杂巧妙的决策。

Chandhiramowuli给我分享了一个案例:一个印度的数据标注员需要区分汽水瓶的图像,并挑选出看起来像Dr. Pepper的图像。但是Dr. Pepper并不是在印度销售的产品,于是解决这个问题的责任落在了数据标注员的身上。

Chandhiramowuli表示,这件事的期望是数据标注员可以找出对公司重要的价值。“他们不仅仅是在学习这些对他们来说毫无意义的遥远事物,他们还要弄清楚这些事物的其他背景以及他们正在构建的系统的优先级是什么”,她说道。

实际上,加州大学伯克利分校、加州大学戴维斯分校、明尼苏达大学和西北大学的研究人员在一篇新发布在FAccT上论文中争论说:无论我们是否意识到,我们都是大型科技公司的数据劳动力。

文本和图像的AI模型是用由互联网上收集的大量数据集训练的,其中包括我们的个人数据和艺术家的版权作品,而我们创造的数据现在永久地成为了公司用来赚钱的AI模型的一部分。我们通过在公共网站上上传照片、在Reddit上投票支持评论、为reCAPTCHA标注图像或进行在线搜索等方式,无意中免费为这些公司做出了贡献。

目前,权力的不平衡严重倾向于且有利于全球最大的一些科技公司。

要改变这种情况,我们需要进行一些毫不逊色于数据革命和监管的变化。研究人员认为,人们可以通过倡导数据使用的透明度,提供人们的反馈权和反馈途径,并享有其数据被使用后带来的收益的方式,重新掌控他们的互联网生活。

尽管这种数据劳动构成了现代人工智能的支柱,但数据工作在全球范围内仍然长期地被严重低估和忽视,并且标注员的工资依然很低。

“对于数据工作的贡献几乎没有得到任何认可,”Chandhiramowuli说道。

----------------------------------------------------------------------------------------------------------------------

// 后面的段落都是一些推荐文章,与本文无关。

原文标题:

We are all AI’s free data workers

原文链接:

https://www.technologyreview.com/2023/06/13/1074560/we-are-all-ais-free-data-workers/

编辑:王菁

译者简介

23fb807644240b1f1fd9d545ba9dafb7.png

李洪君,清华大学建筑学专业研究生。立足于未来人居研究,探索大数据与城市建筑的交叉,发掘理性分析与感性设计的融合。欣然在混沌数据中寻有序规律,乐于在持续迭代的算法中不断求索。感谢加入数据派大家庭,愿在踏实和谦逊中共同进步。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

89ff499db7eb6754bef82a108f08a1fe.png

点击“阅读原文”拥抱组织

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/68312.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程语言中,循环变量通常都用 i?你知道为什么吗?

01 前天,我在朋友圈发了一个问题: 为什么编程中,循环变量通常都是用 i ? 没想到,回复的人这么多!要连翻好几页。 这个问题,有 2/3 的人回答正确,有少部分人知道,但是不太确定。 习惯…

我的ChatGPT学习笔记003

大家好啊,我是了不起! 前一段时间ChatGPT突然火爆,大佬们纷纷下场。我也跟着努力学习,做了一些笔记。 下面将陆续放出笔记,共享给小伙伴们!这是放出的第二篇,和小伙伴们与时俱进哈~~ 笔记三&…

【超详细】R语言实现各种数据可视化

文章目录 1 主成分分析可视化结果1.1 查看莺尾花数据集(前五行,前四列)1.2 使用莺尾花数据集进行主成分分析后可视化展示 2 圆环图绘制3 马赛克图绘制3.1 构造数据3.2 ggplot2包的geom_rect()函数绘制马赛克图3.3 vcd包的mosaic()函数绘制马赛克图3.4 graphics包的m…

☀️苏州程序大白一文教你学会微信小程序开发☀️《❤️记得收藏❤️》

☀️苏州程序大白一文教你学会微信小程序开发☀️《❤️记得收藏❤️》 目录 🏳️‍🌈开讲啦!!!!🏳️‍🌈苏州程序大白🏳️‍🌈🌟博主介绍&#x…

老徐讲解小程序与微信第三方平台及微信官方的关系。

小程序服务器关系分析 小程序是微信官方根据前后端完全分离的思想创建的一套自己的前端框架。 后端部分,则一部分交给微信官方提供授权和鉴别身份的官方接口,而主要的业务逻辑接口则交给第三方开发平台完成。 也就是微信提供了单独的一个微信小程序服务…

微信小程序扫码报工案例分享

使用微信小程序结合PC端ERP完成工序扫码报工扫码出入库,可以实现生产管理全流程自动化作业,使生产效率比之前手工操作有了质的飞跃。 本案例背景介绍 这是一家生产二极管的电子生产企业,车间自动化生产设备多,生产连续性强。产品…

小程序获取头像试试水 02《 程序员变现指南之 微信QQ 小程序 真的零基础开发宝典》

本系列教程是针对粉丝的变现教程,还不是粉丝的可以关注我并且到社区:https://bbs.csdn.net/topics/603436232 进行打卡,不是老粉的也可以获取最终的技术变现学习,最终还有详细的变现教程等你来。 前言 《 程序员变现指南之 微信…

llama.cpp Mac版本llama

骆驼.cpp 路线图/宣言/ ggml 纯C/C中LLaMA模型的推理 热点话题: 简单的网络聊天示例:#1998k-quants 现在支持 64 的超级块大小 super-block size of 64::#2001新路线图: https: //github.com/users/ggerganov/projects/7Azure …

解决老板们的一大难题---如何监管微信聊天

如今,企业越来越希望能够监管员工微信。但是,到底应该监管员工微信的哪些内容呢? 员工在微信上进行的聊天记录、红包转账、删除联系人和聊天记录、消息中涉及敏感词汇、以及客户名片和重要客户名片的发送等行为,老板们都想要掌握…

万达酒店及度假村旗下“万达颐华”品牌第一家直营酒店正式开业

无锡2021年6月28日 /美通社/ -- 无锡万达颐华酒店,位于中国江苏省无锡市中山路218号,是万达酒店及度假村旗下“万达颐华”品牌的第一家直营酒店。无锡万达颐华酒店的前身,是无锡上世纪90年代最著名的高星级酒店 -- 无锡锦江大酒店。随着城市发…

滴滴与万达酒店签署战略合作 将推出会员权益互享

【TechWeb】8月7日消息,滴滴出行与万达酒店及度假村签署战略合作,此次合作将由礼橙专车、滴滴豪华车联合万达酒店,打通出行与酒店领域的资源和服务。在出行服务升级、会员权益互享、品牌联合营销等方面展开深度合作。 以往商旅用户安排行程时…

COMFORT 酒店丨万达酒店及度假村与腾讯微信签署战略合作协议 微信支付分功能酒旅行业率先落地万达酒店

近日,万达酒店及度假村与腾讯微信在北京万达文华酒店签署战略合作协议,双方以微信支付分功能在酒店旅游行业率先落地万达酒店为起点,将在共建“智慧酒店”、探索酒店行业创新场景等方面展开深度合作,致力为宾客提供高品质、“有温…

万达酒店及度假村旗下三大酒店品牌 荣膺迈点年度MBI国内高端酒店十大影响力品牌

中国,北京,2020年7月3日 —— 近日,迈点网、迈点研究院联合数百家全国主流媒体举办的“2019-2020旅游住宿业MBI颁奖盛典暨高峰论坛”在上海隆重召开。万达酒店及度假村旗下万达瑞华、万达文华、万达嘉华三大酒店品牌荣膺“年度旅游住宿业影响力品牌金航奖——MBI(迈点品牌指数)…

为什么说苏宁必买万达百货

在吃下万达百货之后,苏宁易购在全场景智慧零售的探索仍然挑战重重。后者收购前者的逻辑是什么?前者具备哪些可挖掘潜力?后者前者具有哪些想象空间?这都是本次收购行为的主要看点。 不买不行 苏宁易购收购万达百货的背后,或许可以从财报上看出些端倪。…

【报告分享】 2020中国男士美妆市场洞察报告-巨量算数(附下载)

摘要:随着中国新生代男性审美意识的提高,男性护肤意识增强,男士护理成为中国化妆品市场增势明显的品类之一。同时,2020年大批新锐男士护理品牌受到资本市场青睐,并在短视频平台获得爆发式关注,给整个男士美妆市场注入新…

【报告分享】 2020年中国本土及国际美妆护肤品牌及营销现状研究报告-艾瑞咨询(附下载)

摘要:通过定量问卷调研、定性消费者“一对一”深访、定性行业专家“一对一”访谈以及桌面研究四种研究方法,对国内美妆护肤市场的发展和现状进行梳理,并对中国美妆护肤消费者进行洞察研究,旨在了解国内美妆护肤市场营销现状、消费需求特征以及…

【报告分享】 美妆行业营销报告-从“她经济”到“TA经济“-WEIQ(附下载)

摘要:随着社会的发展和进步,女性在社会中的地位得到显著提高,在消费市场的角色也发生改变,渐渐从“奉献型消费”变成“悦己型消费”,“她经济”已然崛起。90后、00后女生年订单量占比过半,成新一代消费者中的主力军&am…

市场营销学数据分析【香奈儿包包在京东上的比价分析】

为了分析香奈儿成功的因素以及香奈儿在市场上的具体销售情况,博主自己写了一个程序用于爬取京东商城香奈儿包包的销售数量(包括商品名称,价格,商品成交量,以及商品的店铺名称),然后对商品进行一…

2023年1月至4月天猫平台美妆品类销售数据分析

如今,随着人们消费观念的突破,越来越多的人用美妆来诠释个性表达,美丽经济获得更多关注,化妆品消费理念逐渐增强,因此,美妆市场也形成了较大的规模。 根据鲸参谋电商数据显示,2023年1月至4月&am…

2021年美妆行业发展趋势洞察

2021年美妆行业发展趋势洞察 目录: 美妆行业概况; 美妆人群消费趋势; 美妆营销模式及案例分析; 有赞美妆数据洞察; 美妆行业思考和建议。 Part 1:美妆行业概况 1.1 化妆品行业市场规模 2019年&#xff0…