200+语言任意互译，新开源的大模型让粤语靓仔直接喜大普奔

200+语言任意互译，新开源的大模型让粤语靓仔直接喜大普奔

news/2024/12/23 18:20:59/文章来源:https://blog.csdn.net/QbitAI/article/details/125687993

Alex 发自凹非寺
量子位 | 公众号 QbitAI

这个翻译模型，不仅支持200+语言之间任意两两互译，还是开源的。

Meta AI在发布开源大型预训练模型OPT之后，再次发布最新成果NLLB。

NLLB的全称为No Language Left Behind，如果套用某著名电影，可以翻译成“一个语言都不能少”。

这其中，中文分为简体繁体和粤语三种，而除了中英法日语等常用语种外，还包括了许多小众语言

△NLLB支持的部分语种截图

由于这些语言之间都可以两两互译，所以咱们能用NLLB把阿斯图里亚语、卢甘达语、乌尔都语等地球上的小众语言直接译成中文了。

一位用粤语的靓仔看到这里直接喜大普奔。

要知道，此前的众多语言模型，要么不支持这么多种语言，要么不能直接完成小众语言之间的两两翻译。

有了NLLB，世界各地的人都有机会以自己的母语访问和分享网络内容；并且无论他们的语言偏好如何，都可以与他人在任意地方沟通。

Meta称，他们计划先将这个技术应用于Facebook和Instagram，以提升这些平台上小众语言的计算机翻译水平。

同时，这也是他们元宇宙计划的一部分。

而这项成果正式开源的消息，也受到广受好评。

除了AI业内关心他们如何支持语料稀缺的冷门语言，以及如何在BLEU基准测试上提高7个点以外。

也有来自西非的网友认为，语言障碍正是全球互联网用户数量进一步增长的关键。

在Hacker News论坛上，大家也对这个AI议论纷纷。

一个前端开发者说，自己的母语就是非常小众的那种，仅有约一百万人使用。

这位开发者此前从未见过对这种语言好用的AI翻译软件，而NLLB给他带来了希望。

不过他认为，连著名的谷歌AI在处理“德-英-德”这样语料丰富的语言翻译时，都常常会出问题，所以他暂且对这个声称能翻译好小众语言的新模型持保留态度。

有网友给这位开发者支招儿，告诉他Meta开放了有支持翻译的儿童书籍，可以去看看翻译效果。

还有人补充道，许多小众语言有许多不同的自然变体，更偏于口语化，而没有特定书面化标准，可以用多种文字书写。

所以，如何对小众语言进行标准化是个棘手的问题。

怎么支持语料少的语言

这个掌握了200多种语言的AI模型是怎么训练的？

据Meta AI介绍，他们的AI研究人员主要通过3个方面来解决一些语言语料少的问题。

其一是为语料少的语言自动构建高质量的数据集。

研究者建立了一个多对多的多语言数据集Flores-200。

专业的真人翻译员和审稿人采用统一的标准，来保质保量地建立这个数据集。

首先，译员们翻译Flores-200的全部句子，并检查；然后，独立审查员小组开始审查翻译质量，根据他们的评估将一些译文送去进行后期编辑。

如果质量评估表明，质量在90%以上，则认为该语言可以被纳入Flores-200中。

最终，Flores-200中包含了842篇不同文章的翻译，共3001个句子。

其二，是对200种语言建模：

研究者开发了一个语言识别系统LID（language identification systems），标记出某段文字是用哪种语言写的。

用监督方式训练的LID模型在看似流畅的句子上，可能难以识别处不正确语法和不完整的字符串。此外，LID很容易学习到没有意义的相关性。

所以，在这个LID开发的不同阶段，工程师们都和语言学家们保持着紧密合作来尽量规避这些问题。

为了对小众语言进行较好的建模，研究者开发了一种“学生-教师挖掘法” （Student-Teacher Mining）

该方法的内容是：让一个大规模的多语言句子编码器的教师模型，与几个语料少的学生模型相互学习整合。

这样能够在不和多语料语言争夺容量的情况下，丰富小众语言的训练数据，保持了多语言嵌入空间的兼容性，避免从头开始重新训练整个模型。

其三，是将一个人工翻译的评估基准：FLORES的覆盖范围扩大2倍，来评估每一种语言的翻译质量。

虽然自动评分是推动该研究的重要工具，但人工评价对于翻译质量的评估也是必不可少的。

通过整合AI自动评分和人工评估，能够广泛量化翻译水平，便于提升整理的翻译质量。

为了让更多程序员和工程师们能够使用或完善NLLB，Meta开放了所有的评估基准（FLORES-200、NLLB-MD、Toxicity-200）、LID模型和训练代码，以及最终的NLLB-200模型和其小型提炼版本等。

Meta AI已将这些内容开源，就在fariseq仓库里面，感兴趣的小伙伴们可以去看看。

论文地址：
https://research.facebook.com/publications/no-language-left-behind/
开源地址：
https://github.com/facebookresearch/fairseq/tree/nllb
参考链接：
https://ai.facebook.com/research/no-language-left-behind/
https://news.ycombinator.com/item?id=32005942
https://twitter.com/MetaAI/status/1544791067567996935

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/45228.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

计算机毕业论文内容参考|基于Android的国际酒店预订APP的设计与实现

计算机毕业论文内容参考|基于Android的国际酒店预订APP的设计与实现

文章目录导文摘要：前言：绪论：课题背景国内外现状与趋势课题内容相关技术与方法介绍：系统分析：系统设计：系统实现：系统测试：本文总结后续工作展望导文计算机毕业论文内容参考|基于Android的国际酒店预订APP的设计与实现摘要：随着人们生活水平的提高和旅游业的迅速…

阅读更多...

基于android系统的单词学习软件设计与开发【附项目源码+论文说明】

基于android系统的单词学习软件设计与开发【附项目源码+论文说明】

基于android系统的单词学习软件设计与开发演示摘要随着手机使用的普及，人们获取与保存信息的方式已经发生了激动人心的转变。智能手机正在逐步融入我们的生活，并影响和改变着我们的生活。由于现在各种智能手机的使用，使得人们在管理、应用…

阅读更多...

软件推荐：论文翻译阅读 + 文献管理 + markdown笔记 + 多设备同步 + 一键导出bib参考文献

软件推荐：论文翻译阅读 + 文献管理 + markdown笔记 + 多设备同步 + 一键导出bib参考文献

起初是重大的一个学长推荐的，但是我只用来存文献，后来研究了一下发现居然有这么多功能。最主要的免费！可以白嫖就是香！ 以下是我用到的一些功能，如果我以后发现什么新功能会继续补充。文章目录 1 下载安装zotero2…

阅读更多...

（附源码）app校园购物网站毕业设计 041037

（附源码）app校园购物网站毕业设计 041037

springboot校园购物网站APP 摘要 21世纪的今天，随着社会的不断发展与进步，人们对于信息科学化的认识，已由低层次向高层次发展，由原来的感性认识向理性认识提高，管理工作的重要性已逐渐被人们所认识，科学化…

阅读更多...

略胜知云？适合大学生的一款文献翻译神器，网页版工具

略胜知云？适合大学生的一款文献翻译神器，网页版工具

转载于微信公众号【投必得学术】之前给大家推荐过一款翻译软件。知云文献翻译安装教程_阅读英文文献的好帮手https://blog.csdn.net/txr152111/article/details/117256967https://blog.csdn.net/txr152111/article/details/117256967 知云阅读翻译这个软件想必大家早已耳熟…

阅读更多...

CopyTranslator——复制即翻译的外文辅助阅读翻译解决方案

CopyTranslator——复制即翻译的外文辅助阅读翻译解决方案

CopyTranslator官网：https://copytranslator.github.io/ 有道翻译VIPCopyTranslator9链接：https://pan.baidu.com/s/1-Gg39WFS-P3LWKjw-59Inw 提取码：qa3i 复制翻译 CopyTranslator监听到剪贴板变化，会将剪贴板内容进行处理&am…

阅读更多...

PDF翻译神器，再也不担心读不懂英文Paper了

PDF翻译神器，再也不担心读不懂英文Paper了

作者 | 琥珀出品 | AI科技大本营（ID:rgznai100） 如果你经常跟文献打交道，那你应该切身体验过那种令人抓狂的心情：流畅地阅读 PDF 外文文献，必要情况下还得逐字逐句地翻译出来。例如，主流翻译引擎之一的谷…

阅读更多...

【论文泛读102】TranSmart：实用的交互式机器翻译系统

【论文泛读102】TranSmart：实用的交互式机器翻译系统

贴一下汇总贴：论文阅读记录论文链接：《TranSmart: A Practical Interactive Machine Translation System》一、摘要自动机器翻译在产生翻译方面非常高效，但不能保证其质量。该技术报告介绍了TranSmart，这是一种实用的人机交…

阅读更多...

Sumo学习日记 - day1 从traci开始

Sumo学习日记 - day1 从traci开始

Sumo学习日记之前经常使用sumo，但是网络上相关教程较少，且并没有行成系统的教学。官方文档教育效果很棒，但是对于想学习sumo这个软件的萌新来说好像有点不友好，所以在这里开一个专题主要介绍sumo和traci的相关使用同时也是自己…

阅读更多...

计算机毕业论文内容参考|基于Android的旅游攻略APP的设计与实现

计算机毕业论文内容参考|基于Android的旅游攻略APP的设计与实现

文章目录导文摘要：前言：绪论：1. 课题背景：2. 国内外现状与趋势：3. 课题内容：相关技术与方法介绍：系统分析：系统设计：系统实现系统测试总结与展望本文总结后续工作展望导文计算机毕业论文内容参考|基于Android的旅游攻略APP的设计与实现摘要：本文基于Android平台…

阅读更多...

关于android的外文论文,毕业论文外文翻译-Android开发

关于android的外文论文,毕业论文外文翻译-Android开发

毕业论文外文翻译-Android开发 (11页) 本资源提供全文预览，点击全文预览即可全文预览,如果喜欢文档就下载吧，查找使用更方便哦！ 9.90 积分毕业设计(论文)外文翻译毕业论文题目基于 Android 手机通讯录的设计与实现作者姓名所学专业…

阅读更多...

【论文阅读笔记】里程计ODO/INS不同融合方式的性能比较

【论文阅读笔记】里程计ODO/INS不同融合方式的性能比较

文章目录一、里程计的工作原理二、论文中的主要结论三、总结四、参考文献欢迎关注个人公众号：导航员学习札记关于里程计的融合一般用“距离增量修正”和“速度修正”两种方式。我最近在想这两种方式在性能上有什么不同，因此找了两篇论文来看。本文主…

阅读更多...

WGCNA | 不止一个组的WGCNA怎么分析嘞！？~（三）（共识网络分析-第三步-共识模块与特异模块相关联）

WGCNA | 不止一个组的WGCNA怎么分析嘞！？~（三）（共识网络分析-第三步-共识模块与特异模块相关联）

1写在前面有小伙伴子留言问最近介绍的WGCNA共识网络的意义是什么，保守性吗！？🧐 与把雄性小鼠和雌性小鼠的数据merge在一起，一起构建网络、确定模块的方式有什么区别呢！？😗 其实区别…

阅读更多...

Same Symbol | 哇咔咔！！！盘点一下表达矩阵中重复基因的处理方法！~

Same Symbol | 哇咔咔！！！盘点一下表达矩阵中重复基因的处理方法！~

1写在前面医院天天叫我们填问卷，我真是不能理解。🫠 动不动就问我们对医院的福利满意吗，对自己的收入满意吗，觉不觉得工作负荷太重了？？？🙂 我们满不满意，觉不觉得累&…

阅读更多...

生信分析案例 Python简明教程 | 视频14

生信分析案例 Python简明教程 | 视频14

开源生信 Python教程生信专用简明 Python 文字和视频教程源码在：https://github.com/Tong-Chen/Bioinfo_course_python 目录背景介绍编程开篇为什么学习Python如何安装Python如何运行Python命令和脚本使用什么编辑器写Python脚本Python程序事例Python基本语法数…

阅读更多...

“去高精地图”跟“轻高精地图”有啥区别？落地的挑战又是啥？ | 九章自动驾驶随笔之一...

“去高精地图”跟“轻高精地图”有啥区别？落地的挑战又是啥？ | 九章自动驾驶随笔之一...

交流群 | 进“传感器群/滑板底盘群/汽车基础软件群/域控制器群”请扫描文末二维码，添加九章小助手，务必备注交流群名称真实姓名公司职位（不备注无法通过好友验证） 编辑 | 苏清涛真正影响Mapless技术路线落地的最大难点在于…

阅读更多...

登录微软账号的Windows电脑如何远程？

登录微软账号的Windows电脑如何远程？

一般情况下，我们都使用的是Windows电脑的本地账户。但是随着Windows 10的推广，现在微软也开始主推微软账号登录Windows电脑了。现在遇到一个问题，就是远程Windows电脑时，提示连接不上，刚开始以为是远程服务没有开&am…

阅读更多...

win10微软商店/账号登录一直转圈

win10微软商店/账号登录一直转圈

解决win10登录微软账户或者微软商店时无法登录问题： 1.右键wifi按钮，打开“网络和Internet”设置。 2.更改适配器选项 3.右键当前的网络连接，选择“属性” 4.找到IPv4一项，点击“属性”按钮 5.自定义DNS服务器地址&#xf…

阅读更多...

微软账户登录不了问题

微软账户登录不了问题

问题描述: 为了使用newbing需要登录微软账号，但是公司电脑访问微软账号十分的慢，一登录就转圈。问题原因： 和宽带采用的上网方式（IPV4和IPV6）和dns解析有关系由于国内基本都采用IPV4的方式，下文对IPV4的…

阅读更多...

我让ChatGPT写了一篇php现状和趋势的文章

我让ChatGPT写了一篇php现状和趋势的文章

我给出的指令是： 写一篇介绍php的2023年现状和未来趋势的文章下面是ChatGPT返回的结果： 2023年PHP：现状和未来趋势编程语言PHP于1994年开发，并从此成为世界上使用最广泛的语言之一。它用于创建动态网站，是web开发世界…

阅读更多...

最新文章

推荐文章