ChatGPT鲁棒性分析:对抗鲁棒与分布外泛化视角

f52c7928a5308a26e86d3467246833db.gif

©作者 | 胡曦煦

单位 | 香港城市大学

研究方向 | 领域自适应,领域泛化

众所周知,最近聊天机器人 ChatGPT 吸引了所有人的注意力,一方面人们想要在国内复刻相同的成功,另一方面也有人焦虑于研究范式的转变,担忧现在的一些传统研究方向可能会在大模型的威力下灰飞烟灭。比如最经典的分布外问题 (Out-of-distribution, OOD)和与它相接近的对抗鲁棒性 (Adversarial Robustness) 问题: 

    • 如果这个模型足够大,见过足够多的数据,是不是分布外这个问题就不成立了? 

    • 如果类似的大模型被应用到日常生活的方方面面,面对一些常见的对抗性文本,它是否具有抵抗干扰的能力? 

从这一点出发,我们的工作率先对 ChatGPT 及相关大规模语言模型 (Large Language Model, LLM) 的分布外泛化性能与对抗鲁棒性做了一些评测。

67f27f4dc766417eebd41290ea0d9f4e.png

论文标题:

On the Robustness of ChatGPT: An Adversarial and Out-of-distribution Perspective

论文链接:

https://arxiv.org/abs/2302.12095

代码链接:

https://github.com/microsoft/robustlearn

4bcc76184ce42caf8e0ca5ec12221124.png

原文解读

对抗鲁棒性评测

对抗文本数据集我们主要选择了 AdvGLUE [1] 和 ANLI [2]。AdvGLUE 是从自然语言理解领域被广泛使用的基准数据集 GLUE [3] 衍生出来的一个对抗版本,包含五个自然语言理解任务:斯坦福情感树库情感分析 (SST2),多种体裁自然语言推理 (MNLI),问题自然语言推理 (QNLI),Quora 问题对 (QQP) 和文本蕴涵识别 (RTE)。

按照任务的不同,模型需要判断句子的情感是正面负面还是中性;两个文本之间是否具有蕴含、矛盾或中立关系;以及两个问题之间是否具有等价、不等价或中性关系。

f778f4067ff52aa83885c6dec4f34401.jpeg

▲ Photo Credit: AdvGLUE

AdvGLUE 在构建数据集的时候分别从词汇层面,句子层面和人工构造这三个层面来构造对抗样本。比如:

    • 词汇层面:笔误;同义词替代;语境下潜在词替换;知识引导扰动等;

    • 句子层面:基于句法的扰动;模糊注意力扰动等

69d7f55ebff8a1e4d44f872813cd1699.jpeg

从 AdvGLUE 展示的结果来看,仅仅只是添加微小的扰动(甚至这些扰动在我们人类看来微乎其微),就能让(强大的)语言模型得出错误的结果。

那么,ChatGPT 在这上面表现如何呢?他是否能火眼金睛地识别出这些用来诱导它做出错误选择的扰动?

1e06ee7cf4039fd67e65a4dc26bcfbcf.jpeg

我们的实验结论是:它能,但它还不够好。 

这里我们选择了一系列大规模语言模型来作为对比的参照物:从参数量上亿的 DeBERTa、BART 到参数量上十亿的 GPT-J,上百亿的 T5、OPT 到最后参数量上千亿的 BLOOM、GPT3。 

表格展示的是成功攻击几率(Attack Success Rate, ASR, 越低说明模型鲁棒性越好),从表格中我们可以看到在一众模型里,ChatGPT 抵御对抗扰动的效果一骑绝尘(黑色加粗表示该任务下最低 ASR)。但是面对这些对抗性文本,ChatGPT 还是没有强大到可以完全不受其影响的程度。

分布外泛化性评测

接下来我们来看一下 ChatGPT 在分布外数据上的表现如何。如何选择代表分布外泛化的数据集是件不容易的事情,因为我们无法得知 ChatGPT 在训练的时候都见过了哪些数据。考虑到 ChatGPT 使用的是 2021 年及以前的数据进行训练,我们选取了 2022 年发表的两个新数据集 flipkartddxplus 对它进行 OOD 性能的检验。 

flipkart [4] 是来自 kaggle 的一个商品评论数据集,模型需要判断该评论的情感色彩是积极、消极还是中性。ddxplus [5] 是 Neurips 2022 Datasets and Benchmarks 赛道释出的一个自动医疗诊断的数据集,包含合成患者的性别、年龄、初始症状、问诊对话与诊断结果。由于原始数据集过大,无法应测尽测,我们从这两个数据集中分别随机抽取了 300 条与 100 条数据进行评测。

27142834341c144fdb30cca4b1976ff0.jpeg

结果如图所示,我们这里汇报的是 F1 分数(越高说明模型性能越好),可以看到自 GPT2 之后的模型 (text-davinci-002, text-davinci-003, ChatGPT) 在分布外数据集上都表现良好,领先其他模型一大截,但距离完美的表现还有比较长的路要走。

对抗翻译任务评测

我们还进一步在翻译任务上评测了 ChatGPT 对扰动文本的鲁棒性。我们从前文中的 AdvGLUE 数据集中随机抽样出对抗性英文文本,手动翻译成中文作为基准,测试了 finetuned 过的 OPUS-MT-EN-ZH, Trans-OPUS-MT-EN-ZH 与 text-davinci-002, text-davinci-003 和 ChatGPT 在该对抗文本翻译任务上的效果。

150c1dc8d60297e8a0eeb28e9580f78d.jpeg

从结果中可以看出,相比前两个在相关数据集上进行过微调的模型相比,大规模语言模型 text-davinci-002, text-davinci-003 和 ChatGPT 在对抗文本上的零样本 (zero-shot) 翻译性能均表现得十分亮眼,翻译文本对于人类来说非常易读与合理。

总结

通过上述的评测我们可以看到,以 ChatGPT 为代表的大规模语言模型 (LLM) 在鲁棒性和分布外泛化性上相较以前的模型确实有很大的提升,但距离接近人类水平的鲁棒性和泛化性仍需更多修炼,直接大规模部署进生产环境仍需警惕。如何真正构建可信赖的智能系统,是我们需要持续思考的主题。

4a3cbd02e87801484e427ff1f08a0ad5.png

论文背后的故事

要该从何说起呢,这跌跌撞撞的第一次。想起那个我们第一次用 CPU 推理模型,总耗时长达 101 个小时的时候,就忍不住笑。 

从误用 zero-shot 模型到发现 api,到内存爆炸,从只会用单卡到多卡,到提示词调参师,这背后的故事可以有一大箩筐了。 

那就让我们从头讲起。

缘起

ChatGPT 是 OpenAI 11 月 30 日发布的最先进的语言聊天模型,但是在国内渐渐掀起波澜却是年后一两个月的事情了。

7ddec2c98a120756e786ae75af6bf4ac.jpeg

▲ ChatGPT

我是一个研究视觉领域模型对抗鲁棒性的人,众所周知,对抗鲁棒界只需要一个非常小的肉眼都无法察觉的扰动,就能让机器做出完全错误的预测。

57206d714fa3d4f383b26ef469dd050f.jpeg

▲ 对抗鲁棒的经典例子

看着 ChatGPT 这么神,我也想找点对抗鲁棒性的难题考考它,可惜它不能直接接收图片,我尝试了一阵子,还是放弃了。但是转而就在思考,是不是可以用对抗性文本去检测它一下?但是由于当时有别的任务在身,所以没有做过多尝试,就把这个想法先放下了。

第二天晚上,我的实习导师王老师突然发了邮件,约我们晚上碰头,讲有关 ChatGPT 的事情。一问才知道,原来王老师也产生了跟我一样的想法,想要测一测 ChatGPT 的对抗鲁棒性。王老师比我更进一步,已经帮我们确认了出发的起点:AdvGLUE 数据集,它是机器语言理解领域一个多任务对抗文本基准数据集。它旨在挑战自然语言处理模型在多个任务上的鲁棒性,包括句子分类、自然语言推理和问答等任务。

cfa479efa9133ae1d81e3f47e7624362.png

▲ AdvGLUE数据集

于是我们就放下手头其他的任务,第二天各自回去熟悉数据集和模型,准备开始一场酣畅淋漓的战斗。

迅速集结

在没开始实习之前,我在学校里做的是领域自适应方面的工作,当时懵懵懂懂被师兄师姐带入门的时候,就是用的王老师组织编写的代码库,一直深受其益。没想到这一次合作再次体会到了王老师和其他队友们强大的代码能力。

我们使用的模型主要来自两大模型库,一个是 huggingface,另一个是 OpenAI。我还在磕磕绊绊从零开始摸索的时候,第二天上午王老师和其他队友已经迅速写好了各个接口的集成代码库了,我只需要在上面修改相应的数据集接口和提示词,直接调用模型名字就可以。一下子,我们的项目就开了个好头,接下来的工作就可以在这个代码库上高效展开了。

寻找数据集

由于对抗鲁棒性部分的数据集已经确定,所以剩下来的难点在于如何寻找分布外数据集。由于 ChatGPT 使用的训练数据没有披露,所以我们无从得知它到底见过哪些数据,唯一可以利用的就是它只见过 2021 年第四季度之前的数据,好吧,那我们就从 2022 年发布的新数据集中找。

王老师给了我几个备选项,于是我就逐个去看这些新数据集我们能不能下载,下载之后能不能用。一番筛选之后只剩下了一个 DDXPlus 数据集能下载并且能够使用,于是我们就用了这个数据集来作为分布外鲁棒性评测的一部分。

原数据集的原始数据记录是法语,不会法语的我在阅读数据集的时候完全就是抓瞎,只有把法语关键字在通过数据集附带的字典转化为英文后才能勉强读懂一二。于是,我下午的任务就是把这个数据集整理成语言模型能够阅读的输入和输出。

d8c5d9cb7600abb899806baa9319d208.png

▲ 数据集示例

晚上九点半我们照例碰头,大家凑在一起聊了聊各自手头的进度,一起讨论了一些未定的问题,就打算把程序跑起来然后休息了。由于队友们都十分给力,第三天一大早我们就收获了不少的结果,于是王老师就着手开始写文章,我们就继续调试提示词和实验,确保万无一失。第三天就在忙碌的调试和代码合并中度过了。

如何加速推理?

第四天,我在忙完手上的分布外数据集之后又接手了一个新活,测试 ANLI 上语言模型的对抗鲁棒性,同时陈皓建议我们增加一个对抗鲁棒性文本的翻译任务,于是整体文章的内容又更丰富了。但是此时也遇到一个棘手的问题,对于比较长的文本,载入 CPU 的大模型推理起来太慢了,仅在 DDXPLUS 这一个数据集上,OPT 这个模型的推理总时长都要达到 101 小时,这是我们无法接受的。

原有机器 CPU 的性能不足一下子就显现出来,但手头其他的机器都没有这么大的 RAM,于是我们半夜又折腾借机器折腾了好一会,最后终于搞到一台核数更多更强的机器,勉强跑起来了。

新的问题?

换了新的机器之后,推理时间长的问题就可以通过一晚上的昼夜不停的工作解决了。第五天,我们的实验结果差不多都完成了,于是开始最后的收尾讨论,以及重跑一遍实验来确保结果的可靠。

这个时候,最大的问题出现了,我们无法原样还原原来的实验结果,这意味着之前昼夜战斗的一切可能都化为泡影。所有人都紧张了起来,大家来不及吃午饭就匆匆进了会议开始讨论。经过一番紧张的讨论之后,我们终于明白是之前我们调用模型的方式出了错误,得到的是无意义的结果。

074f272bda3dc7b8200b98f145401467.png

▲ 数据集示例

100582b2ac1bfd00ab8587192c0aeed4.png

▲ 正确的调用

于是乎我们再一次开始了模型的重新选择与重新实验。由于已经过了一遍流程,代码也不断优化了,所以虽然一切都得重来,但整体速度还是很快的。唯一的问题还是出在了几个大模型上,推理的时间太长了,试错的代价等不起。该怎么办呢?

从单卡到多卡

前面提到过,由于大模型体量太大,我们没有那么大显存的机器,所以我们选择了将模型载入 CPU 进行推理。在更换了一批模型后,我们发现有一些中等参数量的模型显卡的显存也能 hold 得住,用上了 GPU 推理之后速度快如闪电,再也不是之前一两个小时得漫长等待了。

那么,更大的模型,能否用多卡将其载入进行推理呢?已经是第五天的深夜,全部的希望都寄托在了陈皓的身上,我们期待着他能解决这个大模型多卡推理的问题。经过一番试探之后,他成功地将 OPT 这个最大的模型分布式地载入了多张显卡中。

300003c394f41f9f28859c1e512061e5.jpeg

▲ 多卡推理

这下子,即使是参数量高达 1760 亿的模型,我们也不害怕了,因为我们终于找到了正确打开大模型的方式。

提示词调参师

第六天的任务就是继续紧锣密鼓地完善论文,复核实验。我们在核对实验的时候发现有几个模型由于性能不够强大,无法读懂我们给出的提示词,所以给出了不可靠的答案。那这该怎么办呢?只能拿掉这个模型,让论文的内容变得寡淡无味吗?不,我不愿意接受这样的结果。于是我在处理完手上的事情后,开始静下心来调提示词,直到模型能够正常给出输出。

5661361e371957c76662f9374391bfde.png

▲ 使用的提示词

再结合代码逻辑与人工来清洗机器的输出:

ae73821d253920ed78984b8e6a75ccd3.png

▲ 部分清洗逻辑

终于在最终定稿之前把这几个模型的实验结果给更新上去了。至此,终于可以长舒一口气,但也真切体会到了所谓的人工智能,就是有多少人工,就有多少智能。

提示词调参师

至此,紧锣密鼓的战斗终于告一段落,接下来的就是不断地修改润色,使之更加完美的过程。看着王老师邮件里写的"最后一次碰头",心里感慨万千。既有过去一个星期不分昼夜的拼搏的感慨,也有磕磕绊绊终于越过大山的感慨。但是最为激动和开心的,是第一次跟上了时代的浪潮,跟时下最出圈的大规模语言模型做了一次交手。近距离了解了它的不足,也讶异于它的强大。为人工智能的浪潮最终进入千家万户做了一些潮头前的评测。

科技的进步不随任何个人的意志为转移,作为一个社会计算领域的科研工作者,我们能做的是用我们的所知所学,建立起人类与智能和谐相处的保护伞。希望机器智能能够发展的越来越好,也希望人类可以乘着机器的东风,站到更高更远,更自由的未来。

0f48213c397dc3a2bd331eb2ee301f0f.png

▲ 人与机器智能共同繁荣

outside_default.png

参考文献

outside_default.png

[1] https://adversarialglue.github.io/

[2] https://github.com/facebookresearch/anli

[3] https://gluebenchmark.com/

[4] https://www.kaggle.com/datasets/niraliivaghani/flipkart-product-customer-reviews-dataset

[5] https://github.com/bruzwen/ddxplus

更多阅读

ac1ce93753bf3ba5ee07c7d7e1d554df.png

5d0a09cded6f852535a34ededd0880e9.png

9d156ff52583a80fdb5856fddeec2296.png

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

7e865a612c2fa5878d6457bd2257aeda.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7331.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

王兴将出任王慧文创业公司董事/ 谷歌多年来故意推迟发布类ChatGPT/ 飞书回应齐俊元并未负责日本业务...今日更多新鲜事在此...

日报君 发自 凹非寺量子位 | 公众号 QbitAI 家人们早上好,今天是3月9日,疯狂星期四。 快来和日报君一起来品尝今日份的“科技早餐”吧~ 美团王兴入局中国版OpenAI创业 美团创始人王兴的一条朋友圈火了。 内容的核心爆点,归结为一句话就是——…

ChatGPT中文LLM与医疗领域相结合的开源资源汇总

文章目录 前言DoctorGLMBenTsaoBianQueHuatuoGPTMed-ChatGLMQiZhenGPTChatMedXrayGLMMeChatMedicalGPTSunsimiaoShenNong-TCM-LLMSoulChat 总结 基于开源ChatGPT大模型构建自己的知识库系统 前言 自ChatGPT为代表的大语言模型(Large Language Model, LLM&#xff0…

人工智能历史上的重要一步:ChatGPT影响到谷歌地位?

AI神器ChatGPT 火了。 能直接生成代码、会自动修复bug、在线问诊、模仿莎士比亚风格写作……各种话题都能hold住,它就是OpenAI刚刚推出的——ChatGPT。 有脑洞大开的网友甚至用它来设计游戏:先用ChatGPT生成游戏设定,再用Midjourney出图&am…

ChatGPT当医生,谁敢来问诊

基于LLM的生成式聊天工具,如ChatGPT或谷歌的MedPaLM,具有巨大的医疗潜力,但它们在医疗保健中不受管制的使用将存在固有的风险。一篇发表在《Nature Medicine》新研究讨论了当今时代最紧迫的国际问题之一:如何监管大型语言模型&…

九龙证券|权重股引领A股强势反弹 沪指创今年以来最大单日涨幅

周一,沪深两市强势反弹,上证综指全天收涨超2%,创本年以来最大单日涨幅。到收盘,上证综指报3290.34点,上涨2.06%;深证成指报11954.13点,上涨2.03%;创业板指报2480.79点,上…

马云非公开会议:阿里电商应该回归淘宝;微信上线“安静模式”;ChatGPT会生成Win11激活密钥 | 极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#xf…

总结:Grafana Mimir调研

一、背景 Prometheus单实例,可用性低,可靠性低,不能存储更多数据。 解决业务问题 如:当前QKE是一个集群一个项目一个prometheus实例,那么当我一个应用分多个集群部署的时候,查询数据时就得从三个promethe…

现代软件工程 — 第一部分:系统设计

在80年代末和90年代初长大的我,对电脑的接触几乎仅限于游戏机(我认为是Atari 800和Commodore 64游戏机,因为我只看到过在它们上面运行的游戏)或早期的X86系统。直到2000年我上了大学,我才掌握了一台Sun Microsystems S…

钉钉接入大模型后,我才看懂阿里云钉一体战略的真正价值

来源: 首席数智官(ID:shouxishuzhiguan) hello 大家好,我们是数字化领军者都在看的首席数智官。 关注我,每天给你讲一个商业案例。 今天我们要给你讲的是:钉钉接入大模型后,阿里云…

微软或将于下周推出GPT-4;百度将在3月16日发布文心一言;小i机器人成功登陆纳斯达克丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 百度计划于3月16日14时召开新闻发布会,主题围绕文心一言 3月10日,据百度官方微博消息,百度计划于3月16日14时在北京总部召开新闻发布会,主题围绕文心一言。百度创…

小i机器人登陆纳斯达克:市值4.2亿美元,与苹果打了10年专利侵权官司

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 要问当前科技圈里最靓的仔是谁?那当然是非 ChatGPT莫属。当下谁能推出真正意义上的中国版ChatGPT,并且在这轮AI浪潮竞争白热化阶段中笑到最后,已经成为人们关注的焦点。 美东时间3月9日&a…

Python年利率计算器【N日年化收益率】

现在有闲钱的人,按照聪明等级从低到高排序应该是 钱买股票,一年利率约为-20% 钱放银行活期,年利率约为0.3% 钱放银行定期,一年利率约为1.5% 钱放余额宝(支付宝)或零钱通(微信)&#…

李宏毅-2023春机器学习 ML2023 SPRING-学习笔记:3/3 机器学习基本概念介绍

目录 3/3 机器学习基本概念介绍快速了解機器學習基本原理生成式學習的兩種策略:要各個擊破,還是要一次到位能夠使用工具的AI:New Bing, WebGPT, ToolformerBrief Introduction of Deep LearningGradient DescentBackpropagation卷積神經網路 …

如何用 GPT-4 帮你写游戏?

你知道的,GPT-4 发布了。 目前你想要用上 GPT-4,主要的渠道是 ChatGPT Plus 。作为交了订阅费的用户,你可以在对话的时候选择模型来使用。 另一种渠道,就是申请官方 API 的排队。我在申请 New Bing Chat 的时候,耐心被…

chatGPT与人形机器人,高泽龙接受中国经营报采访谈二者发展

1.相较于Chatgpt,人形机器人的市场前景有多大? 答:人形机器人的市场前景可以用“无限大”来形容,这看起来很夸张而且并不合理,其实是客观而且中肯的。因为这个问题就仿佛是五十年前,人们问“未来的电脑市场…

ChatGPT 来了,你准备好了吗?

周三的晚上,我做了一次直播,题目叫做《ChatGPT 来了,老师和同学们准备好了吗?》。如果你还没看,欢迎看看回放视频。 做这次直播,是因为受了三重刺激。 第一重,来自于我的一位好友,也…

7 个月来,ChatGPT 首次遭遇“负增长”!月访问量下滑 10%​,网友:“过气”预警?...

整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 在全球掀起 AI 热潮的 ChatGPT,爆火了 7 个月后,似乎开始有些“过气”了? 根据网站数据分析工具 SimilarWeb 最新调查显示,在刚刚过去的 6 月中&#x…

GPT-4 手画设计稿 直接生成前端页面

1.演讲者直接手画了一个设计稿 2.输入指令:用html/js把这个原型稿变成彩色网站,填充 2 条真实的笑话 3. 网站代码自动生成 不少所谓的大V在朋友圈噱头喊着前端要失业XX,其实本质上对事物的理解认知不够 AI本质上是帮助人提高生产力的工具,人才…

文心一言话题的思考

⭐️我叫忆_恒心,一名喜欢书写博客的在读研究生👨‍🎓。 如果觉得本文能帮到您,麻烦点个赞👍呗! 近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴 欢迎留言提问欧,喜欢的小伙伴给个三…

跟李沐学ChatGPT背后技术:67分钟读透InstructGPT论文

Datawhale干货 论文解读:李沐,来源:机器之心 InstructGPT 和 ChatGPT 之间有很多一脉相承之处。因此,吃透 InstructGPT 论文对于想要在 ChatGPT 方向上做些工作的同学来说将大有裨益。 在 ChatGPT 走红之后,很多关注技…