大语言模型的多语言机器翻译能力分析

73632cb3cb3e967bfaaec461f7d2a7bf.png

来自:南大NLP

进NLP群—>加入NLP交流群

01

研究动机

ChatGPT为代表的大语言模型(Large Language Models, LLM)在机器翻译(Machine Translation, MT)任务上展现出了惊人的潜力。通过情景学习(In-Context LearningICL),大语言模型可以根据任务示例和任务指令,在不更新模型参数的情况下,完成特定下游任务。然而,值得注意的是,这些大语言模型主要基于大规模的数据进行语言模型任务的学习,并没有在大规模多语言翻译数据上训练过,我们非常好奇于:(1)大语言模型的多语言机器翻译能力如何?(2)哪些因素会影响大语言模型的翻译表现?为了探究这些问题,本文评测了XGLM[1]OPT[2]BLOOMZ[3]ChatGPT[4]等众多热门大语言模型在百余种语言上的翻译能力,并且分析了在情景学习中各种因素对翻译效果的影响。

02

贡献

  1. 1.     本文在102种语言以及202个以英文为核心的翻译方向上全面地评测了包括ChatGPT在内的热门大语言模型的多语言机器翻译能力。

  2. 2.     本文系统地报告了一系列大语言模型以及两个有监督基线的翻译表现,为后续大语言模型和多语言机器翻译研究工作提供了有力参照。

  3. 3.     本文还发现了在机器翻译任务上大语言模型展现出了一些新的工作模式。

03

实验设定

为了全面地衡量大语言模型的多语言机器翻译能力,本文选用Flores-101数据集[5]进行实验。在应用大语言模型进行情景学习的过程中,本文设置任务示例数目为8,任务指令模版为“<X>=<Y>”,其中“<X>”和“<Y>”分别为源句和目标句对应的占位符。此外,本文也报告了M2M-100-12B[6]以及NLLB-1.3B[7]这两个强大的传统有监督模型的多语言翻译表现作为参照。

04

大语言模型多语言机器翻译能力评测

在系统地评测大语言模型的多语言翻译能力后,本文得出了以下主要结论:

  1. 1.     在评测的四种大语言模型中,ChatGPT展现了最好的多语言机器翻译效果:相比于只经过预训练(pre-traing)的XGLMOPT,经过指令微调(instruction-tuning)的BLOOMZChatGPT展现了更好的翻译表现(表格1)。值得注意的是,BLOOMZ在七组翻译方向上超过了有监督基线模型,而ChatGPT在所有被评测的大语言模型中取得了最好的综合翻译表现。

  2. 2.     大语言模型翻译其他语言到英语的表现往往比翻译英语到其他语言的表现要好:此前的研究发现大语言模型在将其他语言翻译到英语时往往有很好的表现,而在将英语翻译到其他语言时则表现较差。本文发现XGLMOPTBLOOMZ,ChatGPT也都存在这种偏好。但是,值得注意的是,ChatGPT已经极大地改善了这种倾向。

表格 1 不同模型在各语系上的平均BLEU分数ffa7680c279b9c63c59bf9ad57868666.png

  1. 3.     在大部分语言上,尤其是低资源语言,大语言模型的翻译效果仍然落后于强大的有监督基线模型:图1中画出来了ChatGPTNLLB模型在各个语言上的翻译表现,可以看出在图片的左半部分,ChatGPT可以取得与NLLB相似的性能,而在图片的右半部分,在低资源语言翻译上,ChatGPT仍然远远落后于传统的有监督基线模型。

  2. 7770fd8dcd15c0d9dd20e0ea19efdbc4.png

  3. 1 ChatGPTNLLB在各语言上的翻译表现对比

  4. 4.    指令微调过的大语言模型仍然可以从任务示例中受益:本文对比了BLOOMZChatGPT这两个经过指令微调的模型在任务样例数目分别为08时的翻译表现(图2),可以看出即使对于指令微调过的模型,提供任务示例依然可以进一步提升其翻译能力。这也是本文在评测大语言模型翻译能力同时提供任务示例和任务指令的原因。

  5. 55fe5170eb665ae667f443e15042d0e1.png

  6. 2 BLOOMZChatGPT在给定不同数目的任务示例时的翻译表现对比

  7. 5.    在公开数据上评测大语言模型有数据泄漏的风险:为了考察数据泄漏对评测结果的影响,本文基于近期的英语新闻,人工构建了一个中--德三语无泄漏机器翻译测试集。在该测试集上的测试结果显示:XGLMOPT在新标注测试集上取得了与公开测试集上相似的性能,而ChatGPT在英语-德语翻译上性能出现大幅下降,BLOOMZ更是在四个测试方向上都出现性能下降的问题(图3)。这说明BLOOMZFlores-101上取得很好的表现很可能是数据泄漏导致的。

  8. 6e7c1512e1c6d73f4f73227d5e376a81.png

    3 不同模型在Flores-101测试集和无泄漏测试集上的翻译表现

05

大语言模型机器翻译能力影响因素分析

为了更好地理解大语言模型如何通过情景学习中完成翻译任务,本文以XGLM为例分析了情景学习中诸多因素对翻译效果的影响。以下介绍本文在关于任务指令和任务示例两方面的相关发现:

1.     与任务指令相关的发现:

大语言模型在下游任务上的良好表现依赖于精心设计的指令:本文发现大语言模型在下游任务上的表现会随着指令内容的不同而剧烈变化。并且在不同翻译方向上,最好的指令也不同(表格2)在这些指令中,“<X>=<Y>”取得了最高的平均BLEU分数。而“[SRC]: <X> \n [TGT]: <Y>”的效果是最差的。这说明在情景学习中,任务指令起着十分重要的作用。

即使是不合理的指令也可以引导大语言模型完成翻译任务:直觉上,人们认为大语言模型理解了任务指令所以能够完成指定的下游任务。但是本文发现,在情景学习时使用任务无关的指令,大语言模型依然可以完成目标任务。例如,面对指令“<X> can be summarized as <Y>”,模型依然可以生成翻译而不是生成摘要。这样的发现说明,以往的研究可能误解了任务指令在情景学习中的作用。

表格 2 使用不同任务指令对翻译效果的影响a780f0a0d3b824f82c9667dd94b14b0d.png

  1. 2.     关于任务示例的发现

根据语义选择示例与随机选择示例效果相当:为了研究任务示例对情景学习效果的影响,本文对比了包括随机检索、稀疏检索、稠密检索在内的多种任务示例选择策略(图4)。实验结果表明当任务样例数目从1增加到8时,BLEU分数会显著提升。但是进一步增加样例数目,BLEU分数基本变化不大,甚至会开始下降。相比于根据语义进行选择,随机选择也可以取得相似的效果。并且即使根据目标句进行检索,也没有展现出明显的优势。这些实验结果表明,翻译任务示例可以帮助大语言模型理解翻译任务,但是大语言模型可能很难从语义相关的翻译示例中直接获取有帮助的翻译知识。

63c9fbc4982d7b4ca9377640ba9efc6a.png

图 4 使用不同任务示例选择策略对翻译效果的影响

翻译任务示例帮助大语言模型理解翻译任务的核心特征:为了理解翻译任务示例如何影响大语言模型理解翻译任务,本文观察了大语言模型在不同任务示例下的翻译表现(表格3)。当使用不匹配的翻译句对作为任务样例时,大语言模型完全无法进行翻译。这说明模型从翻译任务示例中学习到需要保证源句和目标句语义一致。当使用词级别或者段落级别翻译对作为翻译示例时,模型的翻译质量显著下降,这说明任务样例的粒度也很重要。当使用重复的翻译句对作为翻译样例时,模型的翻译质量也会下降,这说明保持任务示例的多样性也是保证模型下游任务性能的必要条件。总体来说,这些对比实验的结果说明大语言在情景学习中,通过任务样例理解了翻译任务的核心需求。

表格 3 在给定不同任务示例时XGLM的翻译表现7c17506b72415c0e134787457a976010.png

使用跨语言任务示例也可能带来翻译性能提升:本文发现在机器翻译的情景学习中,使用不同语言对的翻译句对作为任务示例并不一定会导致翻译质量下降。例如,在进行德语-英语翻译时,如果使用跨语言任务示例会导致翻译质量下降;而在进行汉语-英语翻译时,使用跨语言任务示例则可以大幅提升翻译性能(图5)。这显示了跨语言任务示例在情景学习中的潜在用途。

2654c218e218e1f2e4c5aa75f3027ce6.jpeg

5 使用跨语言翻译任务示例的效果

在上下文末尾位置的任务示例对于大语言模型的行为有着更大的影响:本文发现使用与目标翻译方向相反的翻译句对作为任务示例时,大语言模型完全无法进行正确的翻译。利用这种特性,本文考察了在上下文的不同位置的任务示例对大语言模型的翻译行为的影响程度。表格4中的实验结果表明,在使用相同数量的反向任务示例时,反向任务示例出现在上下文的末尾位置时,大语言模型的翻译表现会更差。这说明在末尾位置的任务示例对于大语言模型的行为有着更大的影响。

表格 4 反转任务示例翻译方向对翻译效果的影响8f28c19ad57a99090f8d95fea790262c.png

06

总结

本文系统地评测了包括ChatGPT在内的一系列大语言模型在102种语言,202个以英文为核心的翻译方向上的多语言机器翻译能力,探究了使用大语言模型进行多语言机器翻译的优势与挑战。我们发现即使是最强的大语言模型(ChatGPT),仍然在83.33%的翻译方向上落后于强大的有监督基线模型(NLLB)。经过进一步的分析实验,我们发现在机器翻译任务上,大语言模型展现出了一些新的工作模式:例如,在情景学习时,任务指令的语义可以被大语言模型所忽视;使用跨语言任务示例可以提升低资源机器翻译效果。更重要的是,我们发现BLOOMZ在公开数据集上的表现是被高估的,而如何公平地比较不同语言模型的能力将是大语言模型时代的一个重要话题。

【该工作由南京大学NLP研究组、上海人工智能实验室、上海交通大学、北京大学、香港大学和加州大学圣巴巴拉分校共同合作完成。预印本论文已发布在arXiv,预印本论文链接为https://arxiv.org/pdf/2304.04675.pdf。该工作的讲解视频已发布在组内官方B站账号“南京大学NLP研究组”,视频链接为:https://www.bilibili.com/video/BV16h411j7nW 】


进NLP群—>加入NLP交流群

论文参考文献

[1] Xi Victoria Lin, Todor Mihaylov, Mikel Artetxe, Tianlu Wang, Shuohui Chen, Daniel Simig, Myle Ott, Naman Goyal, Shruti Bhosale, Jingfei Du, Ramakanth Pasunuru, Sam Shleifer, Punit Singh Koura, Vishrav Chaudhary, Brian O’Horo, Jeff Wang, Luke Zettlemoyer, Zornitsa Kozareva, Mona Diab, Veselin Stoyanov, and Xian Li. 2022. Few-shot Learning with Multilingual Generative Language Models. EMNLP’2022.

[2] Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher De- wan, Mona Diab, Xian Li, Xi Victoria Lin, et al. OPT: Open Pre-trained Transformer Language Models. arXiv:2205.01068.

[3] Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ilic, Daniel Hesslow, Ro- man Castagné, Alexandra Sasha Luccioni, François Yvon, Matthias Gallé, et al. Bloom: A 176b- Parameter Open-access Multilingual Language Model. arXiv:2211.05100.

[4] OpenAI. https://openai.com/blog/chatgpt.

[5] Naman Goyal, Cynthia Gao, Vishrav Chaudhary, PengJen Chen, Guillaume Wenzek, Da Ju, Sanjana Krishnan, Marc’Aurelio Ranzato, Francisco Guzmán, and Angela Fan. The Flores-101 evaluation benchmark for low-resource and multilingual ma- chine translation. TACL’2022.

[6] Angela Fan, Shruti Bhosale, Holger Schwenk, Zhiyi Ma, Ahmed El-Kishky, Siddharth Goyal, Mandeep Baines, Onur Celebi, Guillaume Wenzek, Vishrav Chaudhary, Naman Goyal, Tom Birch, Vitaliy Liptchinsky, Sergey Edunov, Edouard Grave, Michael Auli, Armand Joulin. Beyond English-centric Multilingual Machine Translation. JMLR’2021.

[7] NLLB Team. No Language Left Behind: Scaling Human-centered Machine Translation. arXiv:2207.04672.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63278.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

嗖的一下第二弹,这些好看的皮肤直接一键收下~~

✨前言 &#x1f4e2;首先祝大家假期愉快&#x1f680; 这个假期&#xff0c;大家是怎么玩的呢❓ 小博主我趁着假期也摆了几天&#x1f61c; 因此有好几天没有更新文章了…… 今天偷偷的发一篇文章&#xff0c;浅浅做个样子吧&#x1f62c; 今儿写的文章是继上次写的&#xff…

为什么国内APP热衷于皮肤特效

微博跟腾讯学到了精髓&#xff0c;功能不够皮肤来凑 这不是吐槽呀&#xff0c;是有一定心理学在里面的&#xff0c;人们普遍希望跟身边的人有差异性的&#xff0c;就好像打游戏我买个皮肤在战场上可以秀一下&#xff1b;在游戏中我买个xxx刀&#xff0c;可以打出火花星星等效果…

云炬Android开发教程0 jdk下载与安装教程(小白)

第一步&#xff1a;jdk下载 &#xff08;1&#xff09;oracle官网地址下载&#xff1a;点我进官网下载 &#xff08;2&#xff09;百度云连接下载&#xff08;提供8u211版本&#xff09;&#xff1a; 链接&#xff1a;https://pan.baidu.com/s/1i74YGO8zXuGxumZYGakKKw 提取码…

墨墨背单词

墨墨背单词 推荐一款背单词软件&#xff1a;墨墨背单词&#xff08;无限单词版&#xff09; 下载链接&#xff1a;https://download.csdn.net/download/EQ_cyc/12438004

将有道云词典单词本导入到墨墨背单词

有道云词典导出.XML文件用EXCEL导入.XML文件。点击&#xff1a;数据>自其他来源>来自XML数据导入 导入后会提示以下界面&#xff0c;全部点击确定即可 导入数据后变成这样子 每一行的间距可能特别大&#xff0c;不用管直接复制第一列&#xff0c;放到一个新建的txt文件…

墨墨背单词(最新无限单词版---持续更新)

----------2020年5月27日更新---------- 废话不多说先上图 用户可以直接登录账号&#xff0c;由于现在直接注册功能系统会提示更新到最新系统导致无法注册账户&#xff0c;但是可以通过忘记密码的形式来曲线注册账户&#xff0c;方法如下 软件的下载连接为: https://down…

获取墨墨背单词里面的单词书中的单词

首先&#xff0c;其实是直接尝试抓包获取的&#xff0c;不过在抓包的信息中没发现类似的内容&#xff0c;然后就去百度了以下&#xff0c;发现还是有聪明人。 把下载的 apk 文件解压缩一下&#xff0c;把里面的 assets 文件夹里面的 maimemo.v3.db 直接拖到navicat中&#xff…

[小小项目]背单词的程序---1.0_纯C语言_单文件版本

文章目录 前言&#xff1a;可以学到什么&#xff1f;一、功能介绍以及演示二、准备工作1&#xff09;准备所需的单词的文本2&#xff09;任意的C语言开发环境 三、代码1&#xff09;读取文件&#xff0c;不存在则爆出异常2&#xff09;开辟空间来存放读取出来的内容3&#xff0…

android 补签控件,墨墨背单词怎么补签 看完你就懂了

现在手机的普及让不少用户在手机上面学习英语&#xff0c;而墨墨背单词就是一款专业的英语学习软件&#xff0c;它可以提醒用户每日记忆单词&#xff0c;还有督促你学习的签到系统&#xff0c;通过每日的签到不仅可以提高你学习英语的动力还能免费提升每日学习单词的上限量呢。…

未root的情况下获取墨墨背单词的databases文件夹

文章目录 前言解决思路第一步&#xff1a;备份下载Winhex使用abe解压备份文件结语 前言 在我的《墨墨背单词免费版本地数据找回方法》这篇博客中提到&#xff1a;“复制出“databases”文件”。但这个文件夹并不是那么容易复制出的&#xff0c;如果你的手机已经被root了&#…

C语言实现背单词软件(系统级别)

目录 一、软件需求说明书 1 引言 2 任务概述 二、可行性研究报告 1 编写目的 2 所建议的系统&#xff08;技术可行性&#xff09; 3 使用方面的可行性 4 结论 三、系统设计说明书 1.面向对象设计 1.1前提说明 1.2 系统设计 2.面向对象建模 四&#xf…

不背单词vs墨墨背单词 竞品分析

1. 分析背景 1.1 业界状况 根据易观千帆数据中心&#xff0c;2020年4月全网教育APP活跃用户共44597.16万&#xff0c;将近4.5亿&#xff0c;且仍在持续稳定增长&#xff0c;其中在线外语学习赛道坐拥6726.52万活跃用户&#xff0c;占比15%。背单词类软件作为一项外语学习人群…

【墨墨英语单词库免费开源无偿分享】小学、初中、高中、大学四六级专四专八、考研、托福、雅思等词书文本大合集

还在愁没有自己想要的词书&#xff1f;这不&#xff0c;我都给你准备好了&#xff1a; 纯英文txt源词库 带list分类txt词库大全 带中文释义excel词库 这些词书呢&#xff0c;是知乎上的一位大神用爬虫把墨墨背单词app的所有词库给爬取下来的&#xff0c; 而且无偿开源&…

关于电脑使用墨墨背单词使用键盘操作问题

在上班期间摸鱼的时候偶尔背背单词&#xff0c;用鼠标还需要平移点击&#xff0c;很累。 如何全用键盘操作界面&#xff1f; 01 Windows系统 Windows系统使用比较简单&#xff0c;下载一个雷电模拟器就可以解决。 默认数字123分别对应墨墨上的“认识”、“模糊”、“忘记”。…

印度网民集体删除中国APP,网友评论亮了

全世界只有3.14 % 的人关注了 爆炸吧知识 最近&#xff0c;国外有一款Remove China Apps火了。 这款APP只有一个功能&#xff1a;可以一键扫描用户手机里的应用&#xff0c;识别出自中国公司的应用&#xff0c;并进行一键删除的骚操作。 应用的主图标、界面&#xff0c;甚至特意…

因签署Android独家协议排除竞争对手 谷歌在印度被罚款1.62亿美元

印度反垄断监管机构日前宣布对谷歌罚款1.62亿美元 , 原因是谷歌与合作伙伴签署独家协议以排除竞争对手。 怎么排除竞争对手还是往期相同的话题&#xff1a;谷歌要求合作伙伴们在安卓设备里预装谷歌核心应用并设置为默认。 同时还要求合作伙伴不要开发基于安卓开源项目的定制系…

油猴脚本 使用教程

一、了解油猴 1.百度“油猴”搜索官网 2.进入官网 https://greasyfork.org/zh-CN 用户脚本是什么&#xff1f; 用户脚本是一段代码&#xff0c;它们能够优化您的网页浏览体验。安装之后&#xff0c;有些脚本能为网站添加新的功能&#xff0c;有些能使网站的界面更加易用&am…

油猴的使用

油猴 tampermonkey 【不同的人叫法也不一样】 油猴 &#xff1f;&#xff1f; 好多人会问&#xff0c; 这个是什么东西&#xff1f;&#xff1f; 这个就由我来给大家介绍一下吧 我们看油猴官网介绍 https://www.tampermonkey.net/ Tampermonkey 是一款免费的浏览器扩展和最…

到底是微信窃取隐私,还是输入法光明正大收集用户信息?

作者 | Carol 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 在2021年1月的微信公开课上&#xff0c;微信创始人张小龙曾针对微信的用户隐私问题做出了回应。 张小龙表示&#xff0c;过去接到过不少用户的反馈称“在微信上聊什么电商平台就推什么”&#xff0c;…