贯穿AI生命周期各阶段的道德问题:数据标注部分

随着AI在市场上得到更广泛的采用并被作为各种用例中的工具实现,更多的挑战也应势而生。AI项目遇到了一个长期的关键问题,即合乎道德的AI以及数据中的偏见处理。在AI发展初期,这个问题并不明显。 数据偏见是指数据集中某个元素的代表权重过大或不足。如果使用有偏见的数据来训练AI或机器学习模型,就会导致有偏差、不公正、不准确的结果。澳鹏正在深入研究AI生命周期各个阶段合乎道德的AI数据是什么样的。 在数据旅程的每一步,都有可能出现导致数据偏见的常见错误。值得庆幸的是,有一些方法可以避免这些隐患。在本系列文章中,我们将探索AI生命周期以下四个阶段中的数据偏见:

  • 数据获取
  • 数据准备
  • 模型训练和部署
  • 人工模型评估

并非所有的数据集都是平等的,但我们希望帮助您驾驭AI生命周期中复杂的数据道德问题,这样您就可以为AI模型创建最好、最有用且最可靠的数据集。  

数据准备中的偏见

在使用数据训练AI模型之前,必须保证这些数据可读并可用。AI数据生命周期的第二阶段是数据准备,即获取一组原始数据,对其进行排序、标注、清理和复核。澳鹏为客户提供人工标注、AI自动数据标注等数据准备服务。这两者结合应用,则能以尽可能低的偏见交付高质量的数据。 在数据准备阶段,首先由标注员检查每条数据,并为其提供标签或标注。根据不同的数据类型,可能有以下标注方式:

  • 在图像中的对象周围加边界框
  • 转录音频文件
  • 将书面文本从一种语言翻译成另一种语言
  • 标注文本文件或图像文件

我们世界各地的人工标注员完成数据标注后,数据便进入数据准备的下一环节:质量保证。质量保证过程需要人工标注员和机器学习模型来检查数据的准确性。如果数据不适合项目或数据标注错误,则会从数据集中删除相应数据。 在数据准备阶段的最后,数据集接着进入模型训练阶段。在数据集进入这个阶段之前,必须保证它一致、完整并且干净。高质量的数据造就高质量的AI模型。 偏见可以通过多种方式引入数据准备过程,并产生道德问题,这些问题随后又被带进AI模型。数据准备中最常见的数据偏见类型包括:

  • 数据缺口
  • 数据标注员训练不当
  • 标注不一致
  • 个人偏见
  • 数据过多或过少

数据中有缺口

AI数据集中潜入偏见的一种最常见情况是,数据缺口和数据代表性不足。如果数据集中缺少某些分组或类型的数据,就会导致在数据和生成的AI模型输出中出现偏见。常见的数据缺口包括少数群体代表性不足。数据缺口也可能是某类数据或罕见用例示例的代表性不足。 数据缺口通常是无意造成的,因此在准备阶段检查数据,查出这些数据缺口非常必要。如果不能通过添加更多代表性数据来解决数据缺口问题,用于训练AI模型的数据就会存在数据缺口,模型随之就会生成不太准确的结果。

数据标注员没有经过良好的训练

数据准备阶段引入偏见的另一种常见情况是,使用未经训练的数据标注员标注数据。如果数据标注员训练不足,不了解其工作的重要性,则标注过程中更有可能出现标注错误或是偷工减料的情况。 为数据标注员提供全面的训练和支持性监督,能够限制数据准备过程中出现的错误数。在数据标注过程中,未经训练的数据标注员可能通过几种方式引入偏见,其中包括标注不一致和个人偏见。

标注不一致

如果由多个标注员标注一个数据集,务必要训练所有标注员在标注每个数据点时保持一致性。当相似类型的数据标注不一致时,就会产生回忆偏见,导致AI模型的准确性降低。

个人偏见

在标注过程中,数据标注员引入偏见的另一种情况是,夹杂他们自己的个人偏见。我们每个人对周围的世界都有一套独特的偏见和理解。虽然标注员对世界的独特理解能够帮助其标注数据,但却可能会在数据中引入偏见。 例如,如果标注员标注带有面部表情的、流露情绪的图像,则来自两个不同国家的标注员可能会提供不同的标注。这类偏见是数据准备中所固有的,但可以通过全面质量保证流程加以控制。此外,企业还可为数据标注员提供避免无意识偏见的训练,设法减少偏见对数据标注的影响。

只使用人工标注或只使用机器标注

过去,标注数据的唯一方法是,由人工检查每一条数据,并用标签标注。近来,机器学习程序已经能够标注数据并创建训练数据集。 围绕两种标注方法的争论总是很激烈:哪个方法更好呢?我们想要双管齐下,既使用人工标注员标注数据,同时也使用机器学习程序对数据标注进行质量保证检查。这样做才能构建一流质量的数据集。

数据过多或过少

在准备阶段评估数据时,还需要考虑的重要一点是,要确保拥有适量的数据。训练数据可能太少,也可能太多。 如果训练数据太少,算法将无法理解数据中的模式。这被称为欠拟合。如果训练数据太多,模型的输出会不准确,因为它不能确定哪些是噪声,哪些是真实数据。为模型提供的数据过多称为过拟合。 为AI模型创建大小合适的数据集,将能提高模型输出的质量。 排除无关紧要的数据 在数据准备过程中,认真检查数据并从数据集中删除不适用于未来模型的数据很重要。在删除数据之前一定要反复检查,因为最初或对某人来说看似“无关紧要的”数据实际上可能并非如此。在这个阶段删除“无足轻重”的数据会导致排除方面的偏见。数据集的某个部分很小或是不常见,并不意味着它不重要。  

数据准备中偏见问题的解决方案

虽然在数据准备过程中有多种方式可能会在数据集中引入偏见,但解决方案也有很多。下面介绍了一些可以在数据准备过程中避免偏见的方法。

雇佣多元化和有代表性的员工

在数据准备过程中消除偏见的一种最重要的方法是,确保决策者和参与者具有广泛的代表性。雇佣多元化的员工对减少AI训练数据集中的偏见大有帮助。 雇佣多元化的员工才是第一步,我们还可以再进一步,为所有员工提供无意识偏见训练。无意识偏见训练能帮助员工更好地识别自己的个人偏见,并有意识地在所标注的数据中寻找偏见。

在质量保证流程中增加偏见检查环节

如果只能做一件事来减少数据准备中的偏见,那应该是在质量保证流程中增加偏见检查环节。大多数偏见都是无意的。这意味着因为没有人察觉,或是没有人想去查找,导致偏见潜入到数据中。 通过在质量保证流程中增加偏见检查环节,可以有意识地进行偏见检查。这样有助于提醒员工明确查找数据中的偏见,批判性地思考数据中应该和不应该代表什么。为员工提供无意识偏见训练,将使他们更容易在数据准备过程中查找和消除偏见。

为标注员提供优厚的报酬和公平的待遇

偏见在AI数据中普遍存在。识别数据缺口需要敏锐的眼光和全面的训练。为解决AI训练数据集中的偏见问题,企业的一个简单做法是,确保其数据标注员获得优厚的报酬和公平的待遇。 工作报酬优厚的员工更有可能关注生产高质量的内容。企业善待员工,员工就更有可能以高质量的工作作为回报。本质而言,合乎道德的AI始于那些为训练AI模型而标注数据和清理数据的人。这些人的工作报酬不令人满意,偏见扩散的可能性就更大。 要为AI模型建立一个更合乎道德的美好世界,就应该回归起点:从数据开始。AI生命周期包括四个数据处理阶段,它们都有可能给训练数据集引入偏见。在数据准备阶段,至关重要的是要有训练有素、享有优厚报酬的员工,他们可以识别无意识的偏见,就能帮助尽可能多地消除偏见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/37061.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI文本标注的概念,类型和方法

我们每天都在与不同的媒介(例如文本、音频、图像和视频)交互,我们的大脑对收集到的信息进行处理和加工,从而指导我们的行为。在我们日常接触到的信息中,文本是最常见的媒体类型之一,由我们交流使用的语言构…

《青春有你》举行看片会 蔡依林、欧阳靖、张艺兴等任导师

张艺兴等任《青春有你》导师 主办方供图 张艺兴等任《青春有你》导师 主办方供图 中新网广州1月15日电 (蔡敏婕)由爱奇艺打造的青年励志综艺《青春有你》即将上线,该节目15日在广州举行看片会。《青春有你》总制片人姜滨在会上称,希望通过节目向年轻人…

速领,我给大家做了程序员专属红包封面~

了不起的程序员们,新年快乐!最近微信红包提供了定制封面,很多品牌都纷纷定制了自己的专属红包封面。 但是,作为具有数百万群体的程序员们,怎么能没有一款专属于他们的红包封面呢? 于是,真的有人…

终于过审了!腾讯给了我20万红包封面,我得发出去。。。

前两天,看到腾讯给我发了一个红包封面定制的特权,看到消息后发现竟然有20万个,特别感谢腾讯对我们的认可。 本来红包封面需要0.1元一个,自己购买的话要2万元,但今年,腾讯给少数优质公众号特权,刚…

【数据挖掘】4、关联分析:Apriori、FP-Growth 算法、买面包是否也爱买啤酒

文章目录 一、概念1.1 支持度1.2 置信度1.3 提升度 二、Apriori 算法2.1 频繁项集的定义2.2 手动推导2.3 SDK 实战2.3.1 超市购物2.3.2 挑选演员2.3.2.1 爬虫2.3.2.2 挖掘 三、FP-Growth 算法3.1 算法步骤3.1.1 创建项头表3.1.2 构造 FP 树3.1.3 通过 FP 树挖掘频繁项集 3.2 手…

计算机歌曲夜空中最亮的星,抖音夜空中最亮的星电视剧插曲歌曲介绍

夜空中最亮的星电视剧插曲这首歌很好听,听这歌词大家肯定也都有点感触,想必大家都很想知道这到底是什么歌。下面PConline小编就为大家带来了夜空中最亮的星电视剧插曲歌曲介绍。 夜空中最亮的星电视剧插曲什么歌 歌名:Sexy lady 歌手&#xf…

张艺兴”准考证”曝光 小绵羊助你考运冲天

今日网上惊现张艺兴准考证,小绵羊难道要参加高考了?原来是HUAWEI nova 2系列推出的“今天我高考”H5。热情的粉丝上传了代言人张艺兴的自拍照并制作了准考证。照片上张艺兴露出阳光微笑,冲着镜头比出胜利手势,仿佛自信满满地为考生…

张艺兴演绎FILA X C.P. COMPANY联名系列;Costco开市客苏州店即将在12月8日开业 | 知消...

香港7-11便利店上架Unlimeat三明治。Zikooin公司旗下亚洲领先的人造肉品牌Unlimeat,在香港800家7-11便利店推出了其素食产品。这家植物肉生产商最新推出的“Unlimeat肉片三明治”采用烧烤酱腌制而成,非常符合香港人的口味。香港7-11最近推出以素肉为食材…

张艺兴新专辑实力突破 被他看好的TA你收入囊中了吗?

提到娱乐圈中最人见人爱、花见花开的明星,恐怕非“小绵羊”张艺兴莫属,不仅有超高的颜值还时时上演“男神杀”,凭借唱、作、跳、演俱佳的全能型特性圈粉无数,单纯率真的性格更是圈粉了一票如黄渤、孙红雷、黄磊等逆天级男人帮。近…

明星热图|白宇、杨洋代言新品牌;张艺兴演绎服饰新品;陈飞宇、宋威龙、宋轶等出席品牌活动...

图片是企业新闻传播的要素之一,优秀的图片使读者能更直观地了解新闻内容。“一周热图”栏目为大家展示每周通过美通社发布的最具代表性的企业新闻图片。 家装 作为演员的白宇从2014年出道至今带给了观众许多经典作品,塑造了多个令人印象深刻的角色。曾出…

阿里星球张艺兴专列开通 粉丝“驻扎”地铁暖心做公益

虾米音乐、阿里星球开通的“张艺兴百万地铁”专列,已在北京地铁1号线上运行一周多的时间了。近日,“张艺兴专列”上出现了暖心一幕:每天都会有不同的张艺兴粉丝“驻扎”在地铁上,自发为乘客和地铁工作人员发放暖宝宝、小镜子等实用…

爱奇艺VIP会员代言人完整版花絮首发 张艺兴上班也要萌萌哒

相信大家都知道小奇的“新同事”是张艺兴吧~ 快说,有没有很羡慕小奇? 当然啦,慷慨的小奇绝不会私藏“新同事” 为了满足大家的好奇心, 今日,贴心的小奇悄咪咪地, 曝光爱奇艺VIP会员代言人完整版花絮&#x…

娱乐圈明星集体考编?靳东官宣煤矿文工团副团长,张艺兴关晓彤苏青加入国家话剧院

近期小编发现越来越多的艺人开始考编,除了前几天靳东官宣担任煤矿文工团副团长之外,12月25日中国国家话剧院迎来自己的二十周年华诞,在一段特别制作的纪念视频《你永远可以相信》中,小编发现很多新面孔,来为大家盘点一…

向往的生活之鸿蒙传承,《向往的生活5》播放量破6.43亿,张艺兴功劳大,《跑男》比不了...

在众多综艺节目中,《向往的生活5》备受关注,并且热度非常高。在节目刚开播时,经常登上热搜。 《向往的生活》这档综艺,也打开了慢综艺的市场,越来越多的综艺偏向慢综,但能做好的,也就只有这档综…

中国移动的“野望”:张艺兴入职的背后,是5G时代快速抢占年轻人眼球的攻坚战

文|曾响铃 来源|科技向令说(xiangling0815) 移动互联网玩得越是深入,人们对运营商的遗忘似乎就越厉害。 但运营商显然不甘于此,以互联网常常玩的“明星入职”为例,以中国移动为代表的运营商也在努力尝试&#xff0c…

咪咕圈圈首创线上应援空间新玩法 为动感地带明星合伙人张艺兴花式庆生太圈粉

10月7日,时值中国移动动感地带5G合伙人&AI宣推官张艺兴生日之际,张艺兴版10086定制客服语音包正式上线。这是自中国移动10086客户服务热线推出以来,首次推出明星客服语音定制合作。 同日,由粉丝参与解锁的动感地带全国39个商…

张艺兴代言爱奇艺VIP会员 “快乐要尽兴”追剧没时差

1月15日,爱奇艺青年励志综艺《青春有你》在北京举行了媒体看片会,爱奇艺会员及海外业务群总裁杨向华、爱奇艺高级副总裁陈宏嘉以及众多媒体出席了此次活动。 在看片会活动现场,爱奇艺会员及海外业务群总裁杨向华还宣布了另一个好消息&#xf…

谷歌 AI 编舞师,连张艺兴最喜欢的 Krump 都不在话下

编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) 舞蹈一直是文化、仪式和庆祝活动的重要组成部分,也是一种自我表达的方式。今天,存在多种形式的舞蹈,从舞厅到迪斯科。然而,舞蹈是一种需要练习的艺术形…

自己再造一个大规模预训练语言模型?可以的

1. 引言 自ChatGPT发布至今已近半年,一路走来,我们可以清楚地看到的一个趋势是,到了下半年,每位研究者都会拥有一个类似ChatGPT的模型。这种现象与当年BERT推出后,各种BERT变体层出不穷的情况颇为相似。实际上&#x…

或许,我们都错怪百度了,你原本可以从它那里获得更多......

纵观整个中国互联网发展史,有一家公司不得不提,那就是百度。 但是,如果提起百度,很多人都会发出一声叹息。 这叹息中有对百度错失移动互联网的遗憾,有对百度过度追求营销的憎恶,还有对百度时运不济的感慨…