1 天前
ChatGPT云炬学长
关注
让ChatGPT考国内顶尖高翻学院的研究生,有多大胜算?能得多少分?能过国家线吗?
这实在是一个有趣的话题。ChatGPT,如今的AI顶流,成色如何,想必大家多少都有一点了解。翻译行业的朋友,自媒体的朋友,做过一些测试,都挺有趣。
ChatGPT本身还在更新,会根据用户的反馈,调整算法。例如,最近ChatGPT也已经从“怕老婆”的“人设”,转向“坚信真理”。我在之前一篇短文里,也举了一个例子,当时是一旦质疑它对某个表达的解释,它就会松口,换个相反的说法。希望ChatGPT能继续演化,别被网友搞心态。
做这个测试之前,我咨询了身边小伙伴对这件事情的看法。有朋友说,如果你写这样的文章,可能会影响大家备考的士气,毕竟AI的知识会远远多于我们普通人类。确实,在我们大脑植入芯片之前,是这么回事。所以,初试结束之后,我没有立刻做ChatGPT测试。后来,因为春节放假,也没有再想着去做这样的系统工作。
近期,我又做了一些测试,觉得还是有必要和大家一起聊聊ChatGPT,探讨一下相关话题。今天我们就先聊ChatGPT与高翻考研的爱恨情仇,之后有时间我们再扯点其他的话题。
如何让ChatGPT做高翻考研初试真题?限于篇幅,我不太可能先让它做一遍题目,然后评分;限于题型,我也不可能每一道题都做出相应的测试;本文只聊专业课。
总的来说,对ChatGPT的测试,应当是量化为辅,我们最终给出整体评估。
本次测试的题目主要来自上外高翻、北外MTI初试近几年的真题,测试时题目会由易到难,或者说,由客观到主观。注意,测试顺序并不是实际考试时考题出现的顺序。
首先,我们先让ChatGPT做一下较为客观的题型:词条互译。
这是北外初试一直考的题型,上外以前也考过但最近这些年不考了。闲话少说,下面直接展示英语词条翻译结果。
▲ChatGPT先后给出的结果
ChatGPT第一次给出的翻译是不准确的,vital capacity最好翻译成“肺活量”;但当我们再次生成参考答案时,又翻译对了。它对power generation的翻译,有一次是电力生产(未展示出来),不够稳妥。整体来说,ChatGPT的英汉短语翻译结果不能说100%正确,但也有90%左右的正确率吧。不准确的情况,主要是一个词可以直译时,翻译出来的版本可能不是平时常用的叫法。
以上只是开胃菜,不算难。ChatGPT网站公开的说法是,它对2021年之后的事情了解不多。因此,如果我们给出Southbound Trading让它翻译,结果可能是“南向交易”,而非官方叫法“南向通”,因为这个提法是2021年才有的,ChatGPT不太可能知道。让它翻译uphold fundamental principles and break new ground,给出的译文是“秉持基本原则,开创新局面”,显然它无法直接对应为“守正创新”。
类似的问题,不止出现在翻译中国相关语汇的时候。AUKUS,说的是英国、美国和澳大利亚三国宣布组建的三边安保联盟,由于该新闻较新,ChatGPT也无法理解。
▲ChatGPT给出的结果
这当然有点故意刁难ChatGPT。但我想说明的是,如果考查的术语很新,ChatGPT的优势就会大幅削弱。当然,如果随着微软的加入,ChatGPT可以接入互联网,灵活处理新闻,那时它的功能将更为强大。
这里所做的实验是词条英译汉,词条汉译英也会出现类似的情况,而且可能更加严重——无论是因为新闻本身较新,还是因为中文本身博大精深。
▲ChatGPT给出的结果
ChatGPT没那么了解2022的新闻,对“二十大”的翻译,显然没有联想到“十九大”;“创业板”也选择了直译成start-up board,而不是ChiNext;它给出的“中国式现代化”译法是Chinese-style modernization,其实没问题,但官网说法是Chinese path to modernization。
结合以上简单的分析,我们大致可以说,ChatGPT在词条互译的得分率大概是80%左右。如果考查的内容再新一点,更多地偏向于我国新提法,得分率可能更低;如果考查的内容比较常规,也许会高一点。这个成绩不算低,但也没有预想的那么高。
我们随后测试了ChatGPT在百科词条的表现情况,发现它对时新词汇的解释,难以得分。以下是它对“卷”和“大翻译运动”的解释——后者是2022年的事情,前者已经较早出现。
▲ChatGPT给出的结果
有些流行语,例如“卷”,我们觉得是常识,可以轻松判断出来该如何解释。但是ChatGPT即便知道“卷”有“内卷”的意思,它也没那么容易选出这个答案。也许,再加入诸多的限定条件、提示词汇,它能够知道“卷”应该怎么解释,往哪个方向解释。但是,这是考试,不应该给它任何提示。
可以看得出来,ChatGPT也许拥有很多知识,但在一定程度上缺乏常识。类似的例子也出现在其他AI测试里,比如,我们人类可以轻松分辨出人腿和食物,但图片识别工具也许并不能做到。常识,很重要,对我们人类来说也比较简单;但对于AI来说,常识并不简单。
上面两个百科词条,来自上外高翻2023年的MTI考研初试真题。如果让ChatGPT考上外高翻,它在百科词条解释这一大题,只能得2/3的分数,不算高。不过,它在北外高翻百科词条一题的得分会更高一点,这是因为北外百科词条出得更加常规。两所学校的出题差异,我们之前已经聊过,这里不再展开。
我们也许可以得出这样的结论:在偏客观的题型上,也就是刚说过的词条互译和汉语百科词条两种题型,现有版本的ChatGPT,还不能胜过努力备考过的同学,得分水平只是中等偏上。
如果它能在其他题型上保持这样的水平,初试总分应该可以上国家线。但是,它真的能够在其他主观题型上具有明显优势吗?我们再继续看看。
拿上外高翻常考的阅读并回答问题这一题型来说,文章即便短一点,也得有一千多字。如果直接把文章和问题输入进去,ChatGPT并不能分别针对每一题给出答案,而是给出一段与原文本身相关的话。这可能是测试内容超出了ChatGPT原本的应用范围。因此,这种题型,我们难说能给ChatGPT打多少分。如果严苛一点,我们也可以说,ChatGPT的阅读和分析能力,并没有一般的考生强。
抱着试一试的态度,我也测试了北外翻硕英语的阅读选择题。阅读选择题其实是客观题,但是阅读本身是主观的,所以也归为主观题吧。下面是我们根据考生对2022年北外MTI初试考题的回忆,自己出的题目;最后附有ChatGPT给出的答案。
▲ChatGPT给出的结果
我原本以为,ChatGPT也会无法读懂题目,能给的反馈就是和前面那样,只是发一段话。但意外的是,ChatGPT在做选择题的时候,居然反应很快,五秒之内就给出了答案。
可是很遗憾,ChatGPT只答对了最后一题。也就是说,只能得20%的分数。出错的原因,我觉得可能是ChatGPT还没接受过相应的训练,毕竟它不是为做英语阅读理解题而生的。如果哪天,它能在五秒之内全做对,那就超神了。
接下来要测试的主观题型,主要分为两种:翻译和写作。这些题目的占分比重更高,弄清楚ChatGPT的得分情况,意义更大。还有一些小题型,我们今天不再逐一测试,还请理解。
首先测试的段落英译汉,文章风格偏向于文学理论。
▲ChatGPT给出的结果
这里的中文,其实是很粗糙的,甚至不如谷歌翻译。
▲谷歌翻译给出的结果
ChatGPT的段落英译汉得分,我觉得只能给60%,甚至更低。它在处理具有文学性质的文本时,能基本翻译出原文的意思,但并不能让中文更加顺畅。“这里阐述的观点是通过40多年对读者与文本(从 Chaucer 到 Shakespeare 到 Joyce 和 Wallace Stevens)的参与关系的观察和反思得出的。”这样的中文句子,相信大家都能改得更好。ChatGPT的英译汉能力,可能低于汉译英。它给出的中文译文,更多是紧贴原文的逐字翻译,较少能体现出背后的思考。但也不要小看ChatGPT的英译汉能力。如果中文是非文学内容,ChatGPT的翻译质量值得重视。以下段落来自2022年北外MTI初试翻译科目的真题,文本风格偏向于一般的新闻评论文章。
▲ChatGPT给出的结果
这里ChatGPT给出的中文,质量要比前面稍好一点,但是依旧有改进的空间。“中央银行应该提供关于未来货币政策立场的明确指导,以避免不必要的金融环境紧缩和最大限度地减少市场波动的风险。”意思虽然尚可,但语感一般。试改为:“各国央行应就未来货币政策的立场提供明确指引,避免无端收紧融资环境,尽量消除来自市场波动的风险。”该译文出自去年的真题精讲社群参考译文,略有变动。灵活的句式安排,段落的参差顿挫,接受过职业训练的译者仍有一定的优势。ChatGPT的英译汉测试结果,满分100分的话,大家愿意给多少分?我觉得可能是60-70分左右,也许更低一点。这样的水平,想过国家线,需要一点运气。如果文本适合,文学色彩少一些,它的表现会更好。
我们再测试一下段落汉译英。第一篇测试材料来自北外2022年翻译科目的真题,话题是考古学。原文无法找到,我们给大家练习的是一篇类似的文章。下面是ChatGPT的汉译英结果。
▲ChatGPT给出的多个结果
上下两个版本稍有不同。上面的版本(版本一),第一句很长,明显是直译;下面的版本(版本二)有断句,“It aims to restore...”是对原文的进一步思考,有点超出我个人的预期。试对比一下谷歌翻译:
▲谷歌翻译给出的结果
谷歌翻译的处理,和上面的版本一有点相似,不过“The general...”出现了大小写问题。试改为:Archaeology is a science that unearths the remains of human activities, puts together the fragmented historical pieces, analyzes the living conditions, behavior patterns, beliefs, customs and cultural progresses of our ancestors. It presents a vivid picture of their life, and eventually helps explore the general law of human and cultural development...”该译文来自去年的真题精讲社群,同样能看得出来译文背后的思考。
单看这一段话的翻译,我觉得ChatGPT的汉译英水平是让人惊喜的。下面一段话是2022年上外考过的“双减”话题,翻译时有需要注意的地方。我们先看ChatGPT的表现。
▲ChatGPT给出的多个结果
上中下三个版本(版本一、二、三),都有一定的问题,也都有可取之处。“一个重要导向”,“导向”一词,版本三有一定的思考;“生命价值讨论”,需要思考到底是什么意思,是要跟学生讨论生命价值,还是让学生思考生命价值,或是其他什么意思;最明显的陷阱是第二句话没有主语,版本二的处理略好。大家可以试着改一下,在文末留言,给出自己的译文。
我个人整体的感觉是,如果满分是100分,ChatGPT的汉译英测试结果,可能会给70分左右,比英译汉稍好。中文里的断句、语法是否规范,都会影响ChatGPT的表现。中文原文一旦有瑕疵(这种瑕疵在中文语境下其实没问题),它就不一定能处理好。
最后测试的是ChatGPT的写作能力,包含英语写作和汉语写作。我们把两次测试结果,放在一起看。英语写作话题是核能;汉语写作话题是“文如其人”。
▲ChatGPT写的英语作文
▲ChatGPT写的汉语作文(版本一)
▲ChatGPT写的汉语作文(版本二)
很显然,ChatGPT的英语作文要比汉语作文好得多。英语作文是正常的结构,虽然正反观点各打五十大板,但没有什么大问题。连接前后文的词汇,重复使用however、additionally,显得呆板。
ChatGPT的汉语作文,也许称得上是“废话文学”的代表。虽然它还不能按要求生成完整的作文,但从生成文章的思路看,似乎是不痛不痒地套娃,经典的车轱辘句子写到底。例如:作者的思想决定了作品的内容,同时也影响了作品的观点和语言。如果作者是一个进步的人,那么他的作品往往也是进步的。如果作者是一个保守的人,那么他的作品往往也是保守的。因此,文如其人的说法可以得到证实。好像挑不出什么毛病,但全身上下又都有问题。
打分的话,都按100分算,英语作文可以给80分左右;汉语作文给40分吧,甚至更少。
除了以上分析过的题型,上外北外还考其他题型,这里我们就不再展开聊了。读到这里,大家估计也能看出ChatGPT的水平如何。
一言以蔽之:ChatGPT想过高翻考研初试国家线,有点难。
ChatGPT在短语翻译、词条解释、汉译英、英语写作的表现,的确可圈可点,前提是考试内容不要太偏太新。但它在阅读理解、英译汉,尤其是汉语写作的表现,并不会优于中上游的考生,甚至有时候得到中位的分数都很难。
ChatGPT的中文语料库还需要更新,毕竟开发者是外国人,做得不够好也实属正常。这篇文章更像是跟ChatGPT开个玩笑。它过不了高翻考研初试国家线,但也已经足够惊艳,否则我也不至于好多天私下里拿它做实验。
▲你好?
ChatGPT目前还没能力取代专业的译者,但是它的效率超高,能做多种多样的工作。一般的英语学习者不要觉得学习英语无用,因为学习语言不只是为了翻译,并且英语学得不好,也会让个人能力受限。专业的英语学习者不应视人工智能为敌人,它其实是学习的好伙伴。
我觉得最为人畜无害的态度可能是,重视人工智能的发展,思考如何将其应用到平时的学习生活里。除此之外,大家应当珍惜自己的常识、本能、感受力,这些都是我们人类大脑目前仍有优势的地方。也许哪一天,人工智能连文学翻译也会做得很好,但是它未必能理解每一句话里的微妙情感;甚至有一天,人工智能会成为艺术的集大成者,但它也只是艺术的另外一个表达者,不妨碍我们自己继续创造。
今天就分享到这里,希望对大家多少有点帮助。如果觉得有用,欢迎一键三连,分享给身边的朋友。我们下次见。
发布于 2023-05-20 19:24・IP 属地安徽
评论
写评论
ChatGPT考高翻,能过国家线吗?
ChatGPT云炬学长的文章
打开
赞同添加评论