“男医生,女护士?”消除偏见,Google有大招

640?wx_fmt=jpeg


编译整理 | 若奇

出品 | AI科技大本营


如何消除 AI 带来的性别偏见是个令人头疼的问题,那究竟有没有方法去解决?


12 月 6 日,Google 宣布他们迈出了减少 Google 翻译中性别偏见的第一步,并且还详细介绍了如何为 Google 翻译上的性别中性词提供女性化和男性化两种翻译结果的技术原理。


过去几年,Google 翻译通过使用基于端到端的神经网络系统大大提高了翻译质量,但与此同时,模型的翻译结果呈现出了社会偏见,尤其是性别偏见。具体而言,由于 Google 翻译的结果一直都是从网上数以亿计的已翻译数据中学习得到,这造成的后果是,即使翻译结果可能具有女性化或男性化形式的倾向,但它也只为查询提供一种翻译。因而,这无可避免地复制了已有的性别偏见。例如,像“强壮”或“医生”这样的词语,它会生成偏向于男性化的翻译结果,而对于“护士”或“美丽”等词汇,则会生成偏向于女性化的翻译。


现在,Google 翻译解决了上述问题。当你把诸如“外科医生”这样的单字从英语翻译成法语、意大利语、葡萄牙语或西班牙语时,会得到的男性化和女性化的两种翻译结果。另外,当把短语和句子从土耳其语翻译成英语时,你也会得到这两类翻译,比如你用土耳其语输入“o bir doktor”,就会得到“she is a doctor”和“he is a doctor”这两种按性别翻译的结果。


640?wx_fmt=png

Google 翻译中有特定性别的翻译


Google 团队是如何做的?


要知道,支持单字查询的特定性别翻译涉及到用性别属性丰富 Google 的底层词库。支持较长(短语和句子)查询的性别翻译尤其具有挑战性,这甚至需要对翻译框架进行部分重构。对于这些较长的查询,他们最初将重点放在从土耳其语到英文的翻译上。总体而言,他们制订了三步法来解决土耳其语中性别中立查询的问题,即同时提供英文的男性化和女性化翻译结果。


640?wx_fmt=png


检测性别中立查询


许多土耳其语中提到人的句子都是性别中立的,但并不是全部都这样。检测哪些查询符合特定性别的翻译是一个难题,由于土耳其语在形态学上的很复杂,这意味着指代一个人可以是明确的性别中立代词(例如 O,Ona)或隐式编码。例如,“Biliyor mu?”没有明确的性别中立代名词,可以翻译为“她知道吗?”或“他知道吗?”这种复杂性导致我们不能使用简单的性别中性代词列表来检测性别中立的土耳其语查询,另外我们还需要一个机器学习系统。Google 团队估计大约有 10% 的土耳其语的翻译查询含糊不清,能同时符合女性化和男性化翻译的条件。


为了检测这些查询,他们使用了最先进的文本分类算法(与他们的云自然语言 API 中使用的算法相同)来构建一个系统,该系统能够检测给定的土耳其语查询何时是性别中立的。这就导致在翻译前新增了一个步骤,所以他们必须平衡模型在延迟时的复杂性。Google 团队对数千个土耳其人进行系统培训,要求这些人判断出一个给定的例子是否是性别中立的。而他们最终的分类系统是卷积神经网络,以此可以准确检测出需要按性别翻译的查询。


生成特定性别翻译


随后,Google 团队增强了基础神经机器翻译(NMT)系统,以便在需要时生成女性化和男性化翻译。当没有要求区分性别时,训练模型生成的是默认翻译。这主要包括:


  • 识别并将平行训练数据划分为具有女性化词语、男性化词语和性别不明词语。

  • 在句子的开头添加一个新增的输入标记,以指定要翻译的所需性别,类似于已构建的多语言 NMT 系统的方式:


  • <2MALE> O bir doktor→他是一名医生

  • <2FEMALE> O bir doktor→她是一名医生


  • 训练增强的 NMT 模型对女性、男性和性别中立数据源的影响。他们对这些来源进行了各种混合比试验,使模型在这三个任务中的表现同样出色。


如果确定用户查询是性别中立的,他们会在翻译请求中添加性别前缀。对于这些要求,他们的最终 NMT 模型可以在 99% 情况下生成可靠的女性化和男性化性别的翻译结果。此外,系统在没有性别前缀的查询中还能保持翻译质量。


检查准确性


最后的一个步骤决定是否显示特定性别的翻译结果。由于产生男性化翻译的训练数据与产生女性化翻译的训练数据不同,因此在与性别无关的两种翻译间可能存在差异。如果确定特定性别的翻译质量低,则只显示单一的默认翻译。为了确定特定性别的句子翻译质量,他们进行以下验证:


  • 要求的女性翻译是女性化的;

  • 要求的男性化翻译是男性化的;

  • 除了与性别相关的变化,如果女性化和男性化翻译完全相同,即使翻译结果间的措辞发生微小变化也会被系统过滤掉。


640?wx_fmt=png

男性化和女性化翻译仅在性别方面有所不同,即“he”和“his”与“she”和“her”。因此,他们展示了特定性别的翻译。底部:男性化和女性化翻译在性别方面有所不同,即“he”与“she”。但是,从“really”到“actually”的变化与性别无关。因此,系统将过滤特定性别的翻译并显示默认翻译结果。


如果将所有内容放在一起,输入句子首先会通过分类器,分类器检测它们是否可以进行特定性别翻译。如果分类器说“是”,系统则向增强型 NMT 模型发送三个请求:女性化翻译请求、男性化翻译请求和性别中立翻译请求。最后一步考虑了所有的三个答案,并决定是否显示特定性别翻译或单个默认翻译。Google 团队认为,这一步仍然相当保守,为了最大限度提高所显示的特定性别的翻译质量,因此系统的整体召回率仅为 60% 左右。


对 Google来说,这只是他们解决机器翻译系统中性别偏见的第一步,未来,他们计划将特定性别的翻译扩展到更多语言,并解决自动完成查询等功能中的性别偏见问题。此外,他们已经在考虑如何在翻译中解决非二元性别的问题。


相关链接:

https://ai.googleblog.com/2018/12/providing-gender-specific-translations.html


本文为 AI科技大本营编译文章,转载请联系微信 1092722531。


推荐


640?wx_fmt=jpeg

推荐阅读

  • 最懂区块链的十大女神,值得你关注 | 年度盘点

  • “腾讯也感受到危机了!”

  • 程序员依然是这个时代,贫寒学子翻身的不二选择

  • 讲述:一个月薪12000的北京程序员的真实生活

  • 程序员为啥365天都背电脑包?这答案我服!


点击“阅读原文”,打开APP 阅读更顺畅 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/20874.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

71个外贸工具集合!2023年外贸业务员开发客户必备!

即时通讯工具 国际电话 叮咚&#xff1a;查找或添加成为叮咚好友&#xff0c;可以免费拨打电话&#xff0c;发送消息&#xff0c;语音对话。需要打开梯子网络下载&#xff0c;登陆的时候建议用Facebook账号登录。 链接: http://dingtone.me/and/fl/cn/a/?i Ringo&#xff1a…

ChatGPT工作提效之生成开发需求和报价单并转为Excel格式

ChatGPT工作提效之生成开发需求和报价单并转为Excel格式 一、提出需求如何撰写百度地图标注开发的需求文档 二、针对性地连续提问推荐下一下百度地图标注文档的详细需求列表如何撰写百度地图标注开发的技术规范如何确定百度地图标注开发后的部署计划... 三、生成报价单四、运营…

外贸报价后如何跟进客户?winseeing可快速报价展示样品

外贸公司的业务人员获取了高质量的询盘&#xff0c;若是不细心维护会有与大单和大客户失之交臂的可能。那外贸业务人员常容易犯的错误有哪些&#xff1f; 总结了以下几点&#xff1a; 1、仓促回复询盘&#xff1a;由于回复的太快&#xff0c;缺乏了对客户提出问题的分析过程&a…

PPT Cookbook by Eric

1. 快速生成背景和配色 1.1 ChatGPT 闪击PPT [blog] 1.2 ChatGPT MindShow [blog] 2. 图形和图像 2.1 绘制图形 水平倾斜图形&#xff08;边框为平行四边形&#xff09; 图形的效果是这样的&#xff1a; 就是这里最下方的图像&#xff0c;不过这里该怎么进行绘制呢&am…

快速生成ppt的新方法

1、对着chatgpt输入&#xff1a; 生成一份大纲&#xff0c;主题是&#xff1a;如何做好PPT插件程序编写。请用Markdown语言生成。 chatgpt反馈&#xff1a; 如何做好PPT插件程序编写 引言 PPT插件在现代演示文稿中扮演着非常重要的角色&#xff0c;能够帮助演讲者快速制作高…

放屁模拟器v1.0手机版

软件介绍: 对于喜欢恶搞网友来说&#xff0c;绝对是个好玩的软件。模仿真实放屁声音&#xff0c;多种声音可以选择&#xff01; 软件版本&#xff1a;1.0 支持系统&#xff1a;安卓 软件大小&#xff1a;3.6MB 软件下载: https://lanzoui.com/ioQ5qisaz3e

2022全新恶搞放屁小程序源码

正文: 这小程序的是属于云开发的&#xff0c;暂时没有发现后端源码&#xff0c;安装方法跟其它小程序一样&#xff0c;直接用开发者工具编译上传审核就可以了&#xff0c;这源码还是比较好玩的。 下载方式: lanzou.com/icGNT03h4k4j

js实现Tom猫

效果 HTML&#xff1a; <img class"bg" src"./assets/img/Animations/eat/eat_00.jpg"><img class"drink" src"./assets/img/Buttons/drink/drink.png"><img class"eat" src"./assets/img/Buttons/eat/…

leetcode【每日一题】141. 环形链表 Java【经典放屁题干

题干 给定一个链表&#xff0c;判断链表中是否有环。 如果链表中有某个节点&#xff0c;可以通过连续跟踪 next 指针再次到达&#xff0c;则链表中存在环。 为了表示给定链表中的环&#xff0c;我们使用整数 pos 来表示链表尾连接到链表中的位置&#xff08;索引从 0 开始&am…

搞怪放屁微信小程序源码-无需服务器即可搭建

介绍&#xff1a; 很有意思的小程序源码&#xff0c;而且功能也不少&#xff0c;流量主这个不用说&#xff0c;现在的小程序基本都有。有喜欢的自己去搭建&#xff0c;我这测试没有问题。 网盘下载地址&#xff1a; http://kekewl.org/ra6oqMMvbvk0 图片&#xff1a;

全新恶搞放屁小程序源码

源码介绍&#xff1a; 3种语言白色汇汇通微盘程序源码&#xff0c;有k线修改教程。 源码截图&#xff1a;

恶搞放屁小程序源码

恶搞放屁小程序源码&#xff0c;无流量主&#xff0c;点击选择一款符合您品味气质的&#xff0c;设置播放参数&#xff0c;然后可以发送伪装二维码&#xff0c;发送给好友。 http://bbs.lxh5068.com/12647.html

SAPAS91导入期初固定资产数据往年购置与当年购置的区别

设定上线时间为2018月5月31号 1.AS91 创建一资产&#xff0c;购置日期为2016.05.15购置价值为90000&#xff0c;截止2017年年底折旧额为13537.5&#xff0c;2018年当年折旧2000元。 则如图&#xff1a; 案例二 设定上线时间为2018年5月31号&#xff0c;现有2018年1月份购置的…

全网最新的LoadRunner压力测试实例

摘要&#xff1a;本文通过实例讲解介绍了LoadRunner 工具的使用&#xff0c;介于公司的实际情况&#xff0c;文中主要是对工具的基本使用做了详细描述&#xff0c;高级运用方面除性能计数器与参数设置外其它均未涉及&#xff0c;待以后补充。目的是使公司人员根据该手册便可以独…

新黑马头条项目经验(黑马)

swagger (1)简介 Swagger 是一个规范和完整的框架&#xff0c;用于生成、描述、调用和可视化 RESTful 风格的 Web 服务(API Documentation & Design Tools for Teams | Swagger)。 它的主要作用是&#xff1a; 使得前后端分离开发更加方便&#xff0c;有利于团队协作 接…

1313: [蓝桥杯2016决赛]赢球票

题目 感觉这题的意思比较难懂&#xff0c;题目比较简单&#xff0c;直接模拟就过了 题意&#xff1a;每次都只取出一个&#xff0c;好像和约瑟夫环有点像 AC代码&#xff1a; package 蓝桥杯2016; import java.util.*; public class 赢球票 {static Scanner scnew Scanner(Sy…

1313: [蓝桥杯2016决赛]赢球票 (模拟)

一道没什么毛病的模拟题&#xff0c;但是脑残的我居然看别人写的代码&#xff0c;看懂了感觉&#xff0c;但是最后自己打的时候觉得不怎么对&#xff0c;有一条语句看了半天也没看懂&#xff0c;搞我心态。。。 建议大家没看懂的话就别写博客了&#xff0c;真的害人&#xff0…

蓝桥杯:赢球票

题目链接 目录 题目描述 输入描述 输出描述 输入输出样例 样例1 样例2 题目分析&#xff1a; 样例1&#xff1a; 样例2&#xff1a; 整体思路&#xff1a; AC代码&#xff08;Java&#xff09;: 题目描述 某机构举办球票大奖赛。获奖选手有机会赢得若干张球票。 主持人拿…

【学习周报】

学习内容&#xff1a; instructGPTVLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning 学习时间&#xff1a; 1.9 ~ 1.14 遇到的问题&#xff1a; 强化学习策略的使用&#xff1a;只看懂了HMN代码&#xff0c;没有完全看懂VPM中…

【字节跳动】 https://job.bytedance.com/campus 内推码:MZ9BJHD 电话:13855119574 邮箱:yinxiang.stephen@bytedance.com

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…