200+语言任意互译,新开源的大模型让粤语靓仔直接喜大普奔

Alex 发自 凹非寺
量子位 | 公众号 QbitAI

这个翻译模型,不仅支持200+语言之间任意两两互译,还是开源的。

Meta AI在发布开源大型预训练模型OPT之后,再次发布最新成果NLLB

NLLB的全称为No Language Left Behind,如果套用某著名电影,可以翻译成“一个语言都不能少”。

65eff5cec08ef1f6a0b4a906222d398a.png

这其中,中文分为简体繁体和粤语三种,而除了中英法日语等常用语种外,还包括了许多小众语言

bdf5943bee5e617013daa71c696b2ca3.png

NLLB支持的部分语种截图

由于这些语言之间都可以两两互译,所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了。

5298ab7b99a1bcfe2e1f837888b50762.jpeg

一位用粤语的靓仔看到这里直接喜大普奔。

704efefa2f8a4a09f2b3c6f865fb96f3.png

要知道,此前的众多语言模型,要么不支持这么多种语言,要么不能直接完成小众语言之间的两两翻译。

有了NLLB,世界各地的人都有机会以自己的母语访问和分享网络内容;并且无论他们的语言偏好如何,都可以与他人在任意地方沟通。

Meta称,他们计划先将这个技术应用于Facebook和Instagram,以提升这些平台上小众语言的计算机翻译水平。

同时,这也是他们元宇宙计划的一部分。

而这项成果正式开源的消息,也受到广受好评。

fed1aad234ae01a78e8c1e35c92c5eca.png

除了AI业内关心他们如何支持语料稀缺的冷门语言,以及如何在BLEU基准测试上提高7个点以外。

也有来自西非的网友认为,语言障碍正是全球互联网用户数量进一步增长的关键。

11bcdcd9e27678d0ac1003255cfa0cd9.png

在Hacker News论坛上,大家也对这个AI议论纷纷。

一个前端开发者说,自己的母语就是非常小众的那种,仅有约一百万人使用。

这位开发者此前从未见过对这种语言好用的AI翻译软件,而NLLB给他带来了希望。

不过他认为,连著名的谷歌AI在处理“德-英-德”这样语料丰富的语言翻译时,都常常会出问题,所以他暂且对这个声称能翻译好小众语言的新模型持保留态度。

3a30b1ffaae15c240658076e4db86143.png

有网友给这位开发者支招儿,告诉他Meta开放了有支持翻译的儿童书籍,可以去看看翻译效果。

c1f69f4a86b781d21285612dea5b1025.png

还有人补充道,许多小众语言有许多不同的自然变体,更偏于口语化,而没有特定书面化标准,可以用多种文字书写。

所以,如何对小众语言进行标准化是个棘手的问题。

4ffaeada6d32dec4ceb5dc9182f0bf13.png

怎么支持语料少的语言

这个掌握了200多种语言的AI模型是怎么训练的?

据Meta AI介绍,他们的AI研究人员主要通过3个方面来解决一些语言语料少的问题。

其一是为语料少的语言自动构建高质量的数据集。

研究者建立了一个多对多的多语言数据集Flores-200

专业的真人翻译员和审稿人采用统一的标准,来保质保量地建立这个数据集。

首先,译员们翻译Flores-200的全部句子,并检查;然后,独立审查员小组开始审查翻译质量,根据他们的评估将一些译文送去进行后期编辑。

b2bd7cf11cbe070cae39be406898bd3f.png

如果质量评估表明,质量在90%以上,则认为该语言可以被纳入Flores-200中。

c5ad6120fe9778b84d76ffccc02babd0.png

最终,Flores-200中包含了842篇不同文章的翻译,共3001个句子。

其二,是对200种语言建模:

研究者开发了一个语言识别系统LID(language identification systems),标记出某段文字是用哪种语言写的。

用监督方式训练的LID模型在看似流畅的句子上,可能难以识别处不正确语法和不完整的字符串。此外,LID很容易学习到没有意义的相关性。

所以,在这个LID开发的不同阶段,工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。

为了对小众语言进行较好的建模,研究者开发了一种“学生-教师挖掘法” (Student-Teacher Mining)

该方法的内容是:让一个大规模的多语言句子编码器的教师模型,与几个语料少的学生模型相互学习整合。

edf4a1862d86640c1526f392c6fe40ec.png

这样能够在不和多语料语言争夺容量的情况下,丰富小众语言的训练数据,保持了多语言嵌入空间的兼容性,避免从头开始重新训练整个模型。

其三,是将一个人工翻译的评估基准:FLORES的覆盖范围扩大2倍,来评估每一种语言的翻译质量。

虽然自动评分是推动该研究的重要工具,但人工评价对于翻译质量的评估也是必不可少的。

通过整合AI自动评分和人工评估,能够广泛量化翻译水平,便于提升整理的翻译质量。

为了让更多程序员和工程师们能够使用或完善NLLB,Meta开放了所有的评估基准(FLORES-200、NLLB-MD、Toxicity-200)、LID模型和训练代码,以及最终的NLLB-200模型和其小型提炼版本等。

Meta AI已将这些内容开源,就在fariseq仓库里面,感兴趣的小伙伴们可以去看看。

论文地址:
https://research.facebook.com/publications/no-language-left-behind/
开源地址:
https://github.com/facebookresearch/fairseq/tree/nllb
参考链接:
https://ai.facebook.com/research/no-language-left-behind/
https://news.ycombinator.com/item?id=32005942
https://twitter.com/MetaAI/status/1544791067567996935

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/45228.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

计算机毕业论文内容参考|基于Android的国际酒店预订APP的设计与实现

文章目录 导文摘要:前言:绪论:课题背景国内外现状与趋势课题内容相关技术与方法介绍:系统分析:系统设计:系统实现:系统测试:本文总结后续工作展望导文 计算机毕业论文内容参考|基于Android的国际酒店预订APP的设计与实现 摘要: 随着人们生活水平的提高和旅游业的迅速…

基于android系统的单词学习软件设计与开发【附项目源码+论文说明】

基于android系统的单词学习软件设计与开发演示 摘要 随着手机使用的普及,人们获取与保存信息的方式已经发生了激动人心的转变。智能手机正在逐步融入我们的生活,并影响和改变着我们的生活。由于现在各种智能手机的使用,使得人们在管理、应用…

软件推荐:论文翻译阅读 + 文献管理 + markdown笔记 + 多设备同步 + 一键导出bib参考文献

起初是重大的一个学长推荐的,但是我只用来存文献,后来研究了一下发现居然有这么多功能。 最主要的免费!可以白嫖就是香! 以下是我用到的一些功能,如果我以后发现什么新功能会继续补充。 文章目录 1 下载安装zotero2…

(附源码)app校园购物网站 毕业设计 041037

springboot校园购物网站APP 摘 要 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高层次发展,由原来的感性认识向理性认识提高,管理工作的重要性已逐渐被人们所认识,科学化…

略胜知云?适合大学生的一款文献翻译神器,网页版工具

转载于微信公众号【投必得学术】 之前给大家推荐过一款翻译软件。 知云文献翻译安装教程_阅读英文文献的好帮手https://blog.csdn.net/txr152111/article/details/117256967https://blog.csdn.net/txr152111/article/details/117256967 知云阅读翻译这个软件想必大家早已耳熟…

CopyTranslator——复制即翻译的外文辅助阅读翻译解决方案

CopyTranslator官网:https://copytranslator.github.io/ 有道翻译VIPCopyTranslator9链接:https://pan.baidu.com/s/1-Gg39WFS-P3LWKjw-59Inw 提取码:qa3i 复制翻译 CopyTranslator监听到剪贴板变化,会将剪贴板内容进行处理&am…

PDF翻译神器,再也不担心读不懂英文Paper了

作者 | 琥珀 出品 | AI科技大本营(ID:rgznai100) 如果你经常跟文献打交道,那你应该切身体验过那种令人抓狂的心情:流畅地阅读 PDF 外文文献,必要情况下还得逐字逐句地翻译出来。 例如,主流翻译引擎之一的谷…

【论文泛读102】TranSmart:实用的交互式机器翻译系统

贴一下汇总贴:论文阅读记录 论文链接:《TranSmart: A Practical Interactive Machine Translation System》 一、摘要 自动机器翻译在产生翻译方面非常高效,但不能保证其质量。该技术报告介绍了TranSmart,这是一种实用的人机交…

Sumo学习日记 - day1 从traci开始

Sumo学习日记 之前经常使用sumo,但是网络上相关教程较少,且并没有行成系统的教学。官方文档教育效果很棒,但是对于想学习sumo这个软件的萌新来说好像有点不友好,所以在这里开一个专题 主要介绍sumo和traci的相关使用 同时也是自己…

计算机毕业论文内容参考|基于Android的旅游攻略APP的设计与实现

文章目录 导文摘要:前言:绪论:1. 课题背景:2. 国内外现状与趋势:3. 课题内容:相关技术与方法介绍:系统分析:系统设计:系统实现系统测试总结与展望本文总结后续工作展望导文 计算机毕业论文内容参考|基于Android的旅游攻略APP的设计与实现 摘要: 本文基于Android平台…

关于android的外文论文,毕业论文外文翻译-Android开发

毕业论文外文翻译-Android开发 (11页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.90 积分 毕业设计(论文)外文翻译 毕业 论文题目 基于 Android 手机通讯录的设计与实现 作 者 姓 名 所学专业…

【论文阅读笔记】里程计ODO/INS不同融合方式的性能比较

文章目录 一、里程计的工作原理二、论文中的主要结论三、总结四、参考文献 欢迎关注个人公众号:导航员学习札记 关于里程计的融合一般用“距离增量修正”和“速度修正”两种方式。我最近在想这两种方式在性能上有什么不同,因此找了两篇论文来看。本文主…

WGCNA | 不止一个组的WGCNA怎么分析嘞!?~(三)(共识网络分析-第三步-共识模块与特异模块相关联)

1写在前面 有小伙伴子留言问最近介绍的WGCNA共识网络的意义是什么,保守性吗!?🧐 与把雄性小鼠和雌性小鼠的数据merge在一起,一起构建网络、确定模块的方式有什么区别呢!?😗 其实区别…

Same Symbol | 哇咔咔!!!盘点一下表达矩阵中重复基因的处理方法!~

1写在前面 医院天天叫我们填问卷,我真是不能理解。🫠 动不动就问我们对医院的福利满意吗,对自己的收入满意吗,觉不觉得工作负荷太重了???🙂 我们满不满意,觉不觉得累&…

生信分析案例 Python简明教程 | 视频14

开源生信 Python教程 生信专用简明 Python 文字和视频教程 源码在:https://github.com/Tong-Chen/Bioinfo_course_python 目录 背景介绍 编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法 数…

“去高精地图”跟“轻高精地图”有啥区别?落地的挑战又是啥? | 九章自动驾驶随笔之一...

交流群 | 进“传感器群/滑板底盘群/汽车基础软件群/域控制器群”请扫描文末二维码,添加九章小助手,务必备注交流群名称 真实姓名 公司 职位(不备注无法通过好友验证) 编辑 | 苏清涛 真正影响Mapless技术路线落地的最大难点在于…

登录微软账号的Windows电脑如何远程?

一般情况下,我们都使用的是Windows电脑的本地账户。但是随着Windows 10的推广,现在微软也开始主推微软账号登录Windows电脑了。 现在遇到一个问题,就是远程Windows电脑时,提示连接不上,刚开始以为是远程服务没有开&am…

win10微软商店/账号登录一直转圈

解决win10登录微软账户或者微软商店时无法登录问题: 1.右键wifi按钮,打开“网络和Internet”设置。 2.更改适配器选项 3.右键当前的网络连接,选择“属性” 4.找到IPv4一项,点击“属性”按钮 5.自定义DNS服务器地址&#xf…

微软账户登录不了问题

问题描述: 为了使用newbing需要登录微软账号,但是公司电脑访问微软账号十分的慢,一登录就转圈。 问题原因: 和宽带采用的上网方式(IPV4和IPV6)和dns解析有关系由于国内基本都采用IPV4的方式,下文对IPV4的…

我让ChatGPT写了一篇php现状和趋势的文章

我给出的指令是: 写一篇介绍php的2023年现状和未来趋势的文章 下面是ChatGPT返回的结果: 2023年PHP:现状和未来趋势 编程语言PHP于1994年开发,并从此成为世界上使用最广泛的语言之一。它用于创建动态网站,是web开发世界…