训练人工智能的中国县城工人

 Datawhale干货 

最新:AI行业现状,来源:蓝字计划

作者 | 林石

来源 | 蓝字计划(NPO2020)

全文字数|约4300

全世界都在谈论ChatGPT将带来颠覆性的技术革命,但人工智能训练师李杰却一点也激动不起来。

为了完成单价4分钱的计件工作,李杰和几十个人坐在一间摆设如同初代网吧的屋子里,每天对着电脑划拉鼠标几千次。

他的职责是为训练人工智能模型准备“饲料”,将大量的文字、语音、图像打上标记——“眼珠”、“四川话”、“绿化带”。只有被标注过的数据,才能被人工智能模型识别,训练出它的分辨能力。

李杰做得最多的是道路图片标注,亦即给道路图片上的物体标注好名称、颜色等详细信息,业内俗称“拉框”。

效率高的时候,他一天可以拉2000-3000个框,按照一个框4分钱计算,他一个月能赚三千块左右。对于职校毕业、身在西北县城的青年来说,这份收入还过得去。

999f025832e5ad4b9248ed0ed651a95e.jpeg

一家数据标注工厂

同样的场景也出现在非洲的肯尼亚。该国首都内罗毕有30多名工人,成为了ChatGPT的数据标注员,他们每天工作9个小时,阅读150-200段文字,并标注出其中包含性、暴力与仇恨言论的内容。由于每天阅读大量极具冲击力的文字,有人会因为一段描写而做上一周噩梦。

这些工人能获得每小时1.32美元的税后收入,如果完成既定的任务,时薪可以上升至1.44美元,并有大约70美元的奖金,相当于一个月挣2500元—3000元人民币,比当地一般蓝领工作强些。

在人工智能产品卷起巨浪的时候,从肯尼亚、乌干达再到印度、中国,水下还有一群不被看见的“人工智能训练师”,在简陋的工作环境下,以最简单的技能,与最前沿的技术产生了联系。

a740b2484dfc0cb8b3b41105c5afaeed.png伺候人工智能

李杰对人工智能的理解,是手机上的智能语音助手,“就好像苹果的Siri”。

他在职校念电子商务,同学大多去了电商公司当客服,他时常听到同学对工作的抱怨。相较之下,数据标注的工作枯燥,却也纯粹,他只需要按部就班地完成任务、“可以在办公室吹空调,也没什么难度,就是有点费眼睛”

6338f6461e2e34ca581da9d6baa2a67d.gif

给汽车进行“拉框”,一张图片就要重复数次类似操作

在2021年版的《人工智能训练师国家职业技能标准》中,对该职业的能力特征描述是“具有一定的学习能力、表达能力、计算能力;空间感、色觉正常”,普遍受教育程度写的是“初中毕业”。言外之意,这是一份几乎零门槛的职业。

年过50岁的郭梅,原本在山西当地的煤矿上班,“抬头是山,低头是煤”。离开煤矿之后,她长时间找不到工作,最后成为数据标注基地中的一名员工,每天要拉两千个以上的框。“我从来没有想过自己会和无人驾驶、人工智能有关系。”

b0de5df9aaed416a5926a609141d7a5d.jpeg

正在给汽车拉框的数据标注员

除了“拉框”,李杰也会接到语音标注的项目,通常是甲方采集到的不同地域、不同人群的语音,李杰必须戴上耳麦,仔细地辨认出每一个声音的含义。

一天下来,他要听来自几百个陌生人在不同场景下的发言,可能是伴随着车流声、喇叭声的中年男人在马路上大声质问,可能是讲着广东普通话的阿姨对着麦克风发出指令,有时候,他甚至会听到脏话。

这些声音被李杰一一转录成准确的文字,有时还需要打上说话人的性别、情绪等更细分的标签,最后教会人工智能模型理解人类的语言,用于智能客服、智能音箱、地图导航等产品中。

人工智能的三大基石是数据、算力与算法,数量越多质量越高的数据,往往越能够训练出更“聪明”的模型。

人工智能的主流方向是深度学习。在过去,由人来告诉机器,猫身上都有哪些特征,机器根据这些特征判断一个物体是不是猫;深度学习则是通过“喂养”大量不同猫的图片,机器就能自行归纳出猫的特征。这就需要大量经人工标注的图片,俗话说,有多少智能,就得付出多少人工。

数据标注领域有过一个神话——ImageNet项目。这个项目数据库拥有超过1400万张已被标注的图片,其中识别出的物体种类超过20000种——包括120个不同品种的狗。

f3a9db4f9ea4b4ce4863bc4a9c0ea97e.jpeg

ImageNet图片集中有1400多万张标注图片,其中超100万张带有边框

项目源于斯坦福大学的人工智能专家李飞飞。2009年,业内普遍研究方向都是模型与算法,她另寻蹊径,改进数据质量。如今,ImageNet已经是世界上最大的图像识别数据库,被用于成千上万个人工智能研究项目和实验。

而在ImageNet项目背后,是来自167个国家的5万名数据标注员,他们足足花了三年时间才完成了全部图片的标注。

李杰算是图片标注的老手了,通常发给他的数据包内通常会有数百张不等的道路拍摄照片,李杰需要按照项目方的要求,对道路上的车辆、行人、绿化带等物体标注。另外还有一种常见的标注任务,则是标注道路的车道线。

这种数据标注要求特别多,“框框不能超过也不能小于,更不能漏点,一出错误验收不合格就得重新拉”。这些数据的最大流向是用于自动驾驶的机器学习,要确保驾驶安全,通常需要提供数以百万计的标注数据对人工智能加以训练——背后则是无数在电脑前点击鼠标、敲击键盘的李杰们。

6e7a9bfd22da94339b4183c68d4d64b1.png互联网版富士康

贵阳,大数据之城。

在距离贵阳市中心约50公里的惠水县百鸟河数字小镇,有一家拥有超过500名数据标注员的公司梦动科技——其中的一半人,是附近盛华职业学院的学生。

大三学生郑成安在梦动科技实习,公司里的全职员工只有十来个人,管理层也是学校里的老师,“上课就是上班,老师就是经理”

08baa669710921f3825dc4f93a53656a.jpeg

位于百鸟河数字小镇的盛华职业学院

他很热爱这份工作,数据标注给了他生活多一种选择。他在上高职之前甚至没碰过电脑,现在却可以凭借一份电脑前的兼职,一个月能拿到1500元以上的收入。

郑成安所在的惠水县,在贵阳88个县区中经济水平排在中游,2020年时的GDP为139.16亿元,农村常住居民人均可支配收入12924元——相当于每月1000元出头。

有时候为了多挣一些生活费,碰上紧急的项目,郑成安会主动加班。他清楚地知道,标注员的工作很难一直做下去,他暗自下定目标,要成为管理标注员的人。

像贵阳这样的城市,中国不止一个。

数据标注产业的诞生最早可以追溯到2005年。当时,著名计算机视觉专家、人工智能专家朱松纯从美国回到了故乡湖北鄂州,创办了莲花山研究院,筹建据称是当时世界上最早的大数据标注团队。

在深度学习成为人工智能主流之后,日益增长的互联网大数据成为了人工智能的最好养分。

据数据公司IDC统计,全球每年生产的数据量将从2016年的16.1ZB猛增至2025年的163ZB,其中80%-90%都是原始数据数据。这些在经过清洗和标注后,变成标准化格式数据,才能被人工智能所理解。

作为劳动密集型产业,数据标注企业更多地选在三四线城市落地,地方政府无论是为了扶贫或是搭上互联网的顺风车,都能与互联网公司们一拍即合。

2018年,位于太原的山西转型综合改革示范区就与百度达成合作,打造了号称“全国范围内人员和产值规模最大的单体数据标注基地”,基地占地面积超1万平米,已经引进了至少35家数据标注公司,超过2000名数据标注员。

b0b21f3ab53b9d4a7fc96e4689177180.png

百度山西数据标注基地

在新疆和田,有4000人在当地的数字经济产业园从事数据标注工作,和田地区更是抛出了“数据标注产业之都”和10万人数据标注就业基地的目标。

在河南,数百家数据标注公司从无到有;在济南,山东第一个数据标注基地,已经容纳了1500名“人工智能训练师”;在新三板上市的数据堂,也在保定、合肥,分别建立了容纳数百名数据标注员同时工作的基地。

而数据标注员身上的标签是“互联网民工”、“赛博流水线”。而对于绝大多数身在其中的人而言,一个互联网版的富士康,已经是当下不可多得的选择。

9c2bd3adbe643252f4fc1c0e98f7a27e.png“教会徒弟,饿死师傅”

当数据标注成为“风口”,淘金者也随之而来。

2017年,周华偶然在朋友口中得知,做数据标注能赚钱,刚刚创业失败的他,决定再赌一把。

他算过一笔账,一名数据标注员一个月的产值能到7000元,除掉3000元的工资和质检、场地设备等费用,还能赚1500元。“如果招100个人,一个月就赚15万元。”

他找来合作伙伴,采购电脑、确定场地,又迅速地招聘了一批没有学历、工作经验要求的数据标注员,紧锣密鼓地接单。

62c16111595f90335efcb57288cb44ed.jpeg

正在工作的数据标注员

此时的数据标注产业,赶上人工智能创业潮。根据前瞻产业研究院统计,数据标注公司从2014年开始不断增加,并在2017年达到高峰,当年数据标注相关融资事件达到9起,到2021年4月,已经有有18家公司获得融资,投融资事件39起。

数据标注行业有三种不同的公司,一种是大型互联网公司内部的数据标注部门,处理公司内部的数据;一种是像数据堂这类有自己基地的数据标注公司,他们有独立承接订单的能力,甚至外包给第三方;数量最多的则是以工作室形态存在的小公司,他们通常只能在众包平台上接单,或者第三方中介公司转过来的层层分包的订单——在平台上,他们或被称为“公会”、“团队”。

周华的工作室便属于最后一种,当时主要依赖百度众测的平台订单,平台上会分发各类任务,在行业内称为“放题”,包括数据采集、图片标注、文本标注等。据百度众测的数据,平台上有2500万的注册用户。

但百度众测上的单并不是都能到周华的手里。有时候他必须主动承接一些二手乃至三手的订单,那些掌握渠道的公司则可以赚取差价。

同样和他一样撞上风口的,还有当时还是创业公司的星尘数据。

星尘数据的创始人章磊,在华尔街、硅谷工作10年,曾在投资平台CircleUp担任资深数据科学家。2017年回国时,他本想继续在投资领域创业,尝试打造一个投研机器人——通过对大量公司年报、招股书等金融文档的学习,辅助投资人决策。当时国内的数据标注往往往往只能机械化地完成客户需求,这种“新颖”的数据标注要求,业内难以实现。章磊却看到了机会。

他创办的星尘数据,号称为客户量身打造数据标注方案。这家位于北京三里屯的公司,早在2018年1月就完成1000万元人民币的Pre-A轮融资,最新在去年8月又完成了5000万人民币的A轮融资,如今更多是做“数据标注平台”的生意——他们会去竞标大公司给出的数据标注订单,再分包给类似一些小型的“数据工厂“,周华是他们的其中一个合作伙伴。

2005年成立的海天瑞声,在此次生成式人工智能风潮中更是“赚麻了”。这家在业内以语音数据标注著称的公司,21年在科创板成功上市,今年一月以来,股价从每股60元左右暴涨到了每股超过200元。

397380a36b0fd1d370f1634b31fc87e0.jpeg

海天瑞声最早从语音标注项目起家

毕竟对于国内众多研发人工智能的大厂而言,基础的数据标注是刚需,却不可能永远自己来做。那么只要有订单,无论是周华这样的工作室,还是海天瑞声、星尘数据这样的大公司,都能赚个盆满钵满。并非所有入局者都能有周华的运气,周华就知道不少同行,因为订单缺乏、结算周期长,公司早早退场。

当然,随着GPT-4和文心一言的陆续出场,人工智能正“升级换代”,数据标注行业也伴随着新的变化。

人工智能研究者们已经开始尝试向机器“喂养”未标注的数据与部分标注数据,亦即“半监督学习”,而不依赖于人工标注的自监督学习与数据标注,也在业界开始出现实践。

去年6月底,美国加州圣马特奥县的特斯拉办公室,多名特斯拉员工在一次会议中被告知,他们被裁员了。最终被裁员的200人中,大多数都是数据标注员。特斯拉目前正在开发的计算机Dojo,就采用自监督学习技术,用于训练人工智能模型,对数据标注的需求正越来越低。

724e11b41c186a40a7972593373c573b.jpeg

非洲的数据标注员

腾讯、阿里、字节跳动等一众大厂,也都在研发自监督学习的算法,甚至有些数据标注公司也都已经有60%内容来自于机器的自动化标注。

李杰听过一个说法,数据标注员是“人工智能的老师”,是他和同事们日复一日地拉框,教会了人工智能理解人类世界。

但他从没想过,当人工智能时代真正到来的那一天,取代他们的,恰恰会是自己曾经的学生。

2f6599f237478e446f356175e38dfc9e.png

一起在看三连

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/15715.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自学编程,从月薪500到年薪150万,46岁程序员的IT成长之路

【CSDN 编者按】本文来自 CSDN“年度征文”活动中的一篇文章,作者分析了入行编程 20 年,从高中物理老师到自学编程,在 IT 编程领域摸爬滚打,经历多次起伏与柳暗花明。 原文链接:https://blog.csdn.net/mosquitoxh/arti…

文心一言算力从哪来?自家最大智算中心:算力规模4EFLOPS,base李彦宏老家

百度版ChatGPT底层算力支持,李彦宏老家阳泉助一臂之力! 量子位获悉,百度阳泉智算中心从2月底开始就布设了两个新机房,专门为自家大模型产品文心一言提供计算推理的算力需求。 同样功能的机房,在百度保定计算集群&…

阿里版ChatGPT已进入测试,中文聊天截图曝光,达摩院出品

谷歌硬刚ChatGPT消息一出,科技圈全坐不住了。 就在2月9号,阿里百度网易京东一众公司全宣布要推出类ChatGPT新产品,战况那叫一个激烈。 阿里内测中的达摩院版ChatGPT,也被提前曝光。 竟然连画画技能都具备了?&#xff0…

ChatGPT标注数据比人类便宜20倍,80%任务上占优势 | 苏黎世大学

Pine 发自 凹非寺量子位 | 公众号 QbitAI 又一“人类饭碗”被AI抢走,还是和训练AI息息相关的: 数据标注。 苏黎世大学研究发现,在ChatGPT面前,无论成本还是效率,人类可以说是毫无优势: 成本上,C…

ChatGPT引爆变革:第五个被颠覆的行业——市场营销与广告

随着人工智能技术的不断发展,ChatGPT已经开始在市场营销与广告领域产生深远影响。作为一款强大的文本生成工具,ChatGPT不仅能够撰写各类文章,还可以用于广告文案创作、营销策略设计以及消费者行为分析。 在广告文案创作方面,ChatG…

GPT-5根本不存在!ChatGPT之父Sam Altman首次公开表态,最新视频流出

新智元报道 编辑:编辑部 【新智元导读】4月13日,OpenAI CEO、GPT-4老板Sam Altman在接受视频采访时的一句话,让在场所有人惊呆了:「压根就没有GPT-5」! Sam Altman辟谣了!根本就没有GPT-5! 之…

LLM 系列 | 06:ChatGPT Prompt实践:文本摘要推断转换

简介 梅子留酸软齿牙,芭蕉分绿与窗纱。日长睡起无情思,闲看儿童捉柳花。小伙伴们好,我是微信公众号《小窗幽记机器学习》的小编:卖雪糕的小女孩。更多、更新文章欢迎关注 微信公众号:小窗幽记机器学习。后续会持续整理…

分布式session解决方案

一、Session工作原理: 三个问题: 1、Tomcat中的Session保存在哪? Tomcat本地的ConcurrentHashMap中(本地缓存),以sessionid为key。 2、Tomcat是怎么追踪到请求是属于哪个Session? 通过cook…

类ChatGPT编程秀-编写爬虫代码

随着ChatGPT的大火,越来越多的人习惯于用ChatGPT搞一些有趣的事。去年小编做了一个“有书乐享”的小程序,其中有部分的书籍信息是通过爬虫来抓取的数据,有书乐享”小程序可以看文章《一款简约的乐享书籍小程序》,现在主要是用Clau…

从运维的意义谈起

上周五在北京,原本约了优诺的傲寒想找他去聊聊,然后再回家,因为临时有事未能前往。每次和傲寒聊聊都会有很多收获,这回没能见面聊一聊,觉得有些遗憾。不过在机场的时候看到了天旦的CEO Vader的《运维的意义》&#xff…

OpenAI开放ChatGPT API:2分钱700字

我是卢松松,点点上面的头像,欢迎关注我哦! 昨天 ( 3 月1号)刚出的新闻,OpenAI宣布开放API了,定价为 0.002 美元/750 字,约合人民币2分钱700字。 OpenAI 现宣布,它现在允许第三方开发者通过 API…

一文通透优化算法:从梯度下降、SGD到牛顿法、共轭梯度(23修订版)

23年版前言 本文最初发布于2018年,然因今23年年初在写ChatGPT笔记故而研究RL,研究RL又开始系统重修微积分、概率统计,然后就注意到了此文,仔细审视本文之前18年的版本之后,发现写的和网上不少千篇一律的同类优化文章没…

0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5

【新智元导读】破解「CloseAI」,ChatGPT克隆羊问世!0门槛实现「自研」,从此大语言模型不再只是少数大公司的「金手指」。 此前,OpenAI不Open的事件,已经引发了坊间的诸多争议。 光放出基准和测试结果,不提…

手把手教你使用React和OpenAI API构建和部署ChatGPT克隆应用程序

随着聊天机器人和虚拟助手的使用不断增加,许多企业和开发人员正在寻找创建自己的人工智能驱动的聊天机器人的方法。ChatGPT就是这样一个聊天机器人,它由OpenAI创建,能够进行类似人类的对话,并回答各种问题。 要建造什么&#xff…

开箱即用,完整版 ChatGPT 克隆方案,开源了!

在过去的短短几个月,以 ChatGPT、GPT4 为代表的 AI 应用和大模型火爆全球,被视为开启了新的科技工业革命和 AGI (通用人工智能)的新起点。 不仅科技巨头间你追我赶,争相推出新品,许多学术界、工业界的 AI 大…

元宇宙地产暴跌,林俊杰亏麻了

文/章鱼哥 出品/陀螺财经 随着元宇宙的兴起,元宇宙地产曾一度被寄予厚望,成为各大投资者追捧的对象。然而,最近的一次元宇宙地产价值暴跌再次提醒我们,高收益背后可能伴随着高风险。根据元宇宙分析平台WeMeta的数据显示&#xff0…

挤出泡沫、脱虚向实,AI大模型正在回归价值投资?

商品推荐、交通管理、生成文章、代码编程、电影特效制作……自ChatGPT横空出世以来,AIGC浪潮席卷全球,上下游产业链也因此大放异彩。 市场行情的高景气直观反映在股价上,无论AI公司是否盈利,其股价多呈上升趋势。一些与AI概念有所…

一路对标顶级产品,奇遇XR为何仍不见起色?

临近6月,再度遇冷的XR行业,又让很多人充满期待。外界普遍认为,基于苹果酝酿多年的MR头显产品,将于6月举行的WWDC 2023全球开发者大会正式亮相,XR行业或将迎来“iPhone时刻”。 在一派期待中,一家国内XR企业…

xAI迎战OpenAI|没有什么能够阻挡马斯克的AI梦想

出品|网易科技《智见焦点》 作者|赵芙瑶 编辑|丁广胜 马斯克的“X”系列又添新成员了。 对“X”有执念的马斯克,前不久刚刚将推特“注册名称”改为X Corp.,今天又在推特宣布成立新公司“xAI”。公司团队由马斯克领导&a…

上天了!但炸了:马斯克的「星舰」离火星又近了一步

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未来 来自:机器之心 成功发射,但在空中爆炸了。 这一刻,我们都仰望星空。 北京时间 4 月 20 日晚 9 点半,随着倒计时声音的结束,在 SpaceX 位于得州…