ACL 2023|大模型时代,自然语言领域还有什么学术增长点?

省时查报告-专业、及时、全面的行研报告库

省时查方案-专业、及时、全面的营销策划方案库

【免费下载】2023年5月份全网热门报告合集

普通人如何利用ChatGPT变现赚钱?

无需翻墙,无需注册,ChatGPT4直接使用

ChatGPT提词手册,学完工作效率提升百倍

《底层逻辑》高清配图

国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称 ACL)是自然语言处理(NLP)领域的顶级国际会议,ACL 2023 将于2023年7月9-14日在加拿大多伦多举行。随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软亚洲研究院也在不断推进负责任的人工智能的探索发现与应用实践。今天我们为大家带来3篇微软亚洲研究院以负责任的人工智能为主题入选 ACL 2023 的论文。

01

DuNST: 基于噪声对偶自学习的半监督可控文本生成

e30900cdb3d5c065d50fc0ba9db4dc5d.png

论文链接:

近年来,随着大语言模型(LLMs)的广泛应用,构建负责任的人工智能成为了一个重要的课题。生成没有偏见、无毒性的文本是生成式模型的基本要求。作为自然语言处理(NLP)领域的经典和热点任务,可控文本生成在文本去毒去偏上有着重要的应用。近来大型预训练语言模型中许多 NLP 任务采用的主流方法是微调,然而,模型大小的增加需要更多的训练数据,标注数据的严重不足将导致微调结果不稳定。自学习(Self-Training)是解决可控文本生成数据稀缺问题的有效手段,并逐渐引起了研究者的重视。在每一轮迭代过程中,自学习使用分类器为未标注数据生成伪标签,再使用增强的数据重新迭代训练分类器。通过这种方式,自学习能够利用未标注数据进一步改进分类边界,提高在真实数据上的泛化性。

既有研究主要针对自学习文本分类任务进行提升,但将自学习应用于可控文本生成仍然存在诸多挑战。首先,某一类特定类别的文本数据可能是空白。其次,仅通过自动生成的伪文本进行增强,先前学习的文本空间将被过度利用,因此,模型会忽视其他文本空间,导致文本空间的崩溃以及文本生成质量的恶化。

为了解决上述问题,研究员们提出了一种新颖的自学习框架 DuNST。DuNST 将文本生成和分类作为对偶过程进行联合建模,并且通过自学习来改进模型的生成和分类。除了生成器生成的伪文本之外,研究员们还利用分类器给未标注的文本做伪标注。另外,模型会通过添加两种平滑的噪声来扰动学到的文本空间。添加的噪声可以帮助模型改进文本空间的局部平滑性,增加模型的鲁棒性。理论上,DuNST 可以被看作是对探索(Exploration)和利用(Exploitation)的平衡。添加噪声增强了对潜在更大的真实文本空间的探索,同时保持了对已经学到的文本空间的利用,从而保证模型的性能。

94d47c30f66e80090d760a5bc3c1bfc5.png

图1:DuNST 通过自学习和添加噪声维持利用和探索的平衡。

对三个半监督可控生成任务的实验结果显示,与传统的自学习方法相比,DuNST 显著提高了控制准确性和文本生成的多样性,并保持了生成的流畅度和泛化性。在文本去毒任务上,和微调基线模型(如 GPT2, UniLM 等)相比,DuNST 显著降低了生成文本约60%的毒性,并保持了较高的生成质量。该方法为文本去毒提供了一种低成本的有效方案。

02

EmbMarker: 通过后门水印保护基于大模型的向量表示服务的版权

9256c958231492567a514f4bbdb42ec1.jpeg

代码链接:

https://github.com/yjw1029/EmbMarker

论文链接:

LLMs 在文本理解和生成方面表现了出强大的能力。因此,许多公司开始基于这些 LLMs 提供向量表示服务(EaaS),以帮助客户完成各种 NLP 任务。然而,现有的研究表明,用户可以通过发送查询和接收输出来重建模型的参数,这使得 LLM 的服务提供者面临着模型被盗用或复制的风险。

水印是常用的模型版权保护方法。然而,现有的水印都不适用于 EaaS。因此,有必要提出一种适用于 EaaS 的水印方法。这类方法需要满足以下条件:1. 不影响向量在下游任务的使用性能;2. 当有盗用者复制提供商的模型并提供相同的竞争服务时,提供商可以通过访问盗用者的服务验证其输出中含有提供商的水印;3. 水印需要足够隐蔽,不会被盗用者轻易地过滤掉。

为了解决这些问题,研究员们提出了一种基于后门水印的方法:EmbMarker。EmbMarker 包含两个阶段:水印插入阶段和版权验证阶段。在水印插入阶段,研究员们首先找到一组合适词频的单词作为触发单词,并预定义一个目标向量作为水印。当用户提供的句子中含有的触发单词数量越多时,服务提供者发送的向量与预定义的目标向量的距离越接近。在版权验证阶段,提供商可以使用触发单词和非触发单词分别构造两组句子,并访问待验证的服务得到两组向量。两组向量离目标向量的距离分布差距越大,则说明该服务后的模型越有可能是盗用或复制了提供商的模型。在多个数据集上的实验结果表明,EmbMarker 可以在不影响向量在下游任务性能的情况下,以高置信度验证盗用者服务中的水印,并且具有很强的隐蔽性。

1a48444427313c320a6a7f02c00cfb9e.png

图2:EmbMarker 的框架

03

GLUE-X:基于分布外泛化的自然语言理解模型测试集

40addc9a659d0ace159e8de80a664d39.png

论文链接:

机器学习的许多领域都面临着一个共同的难题:评估。近些年来,虽然机器学习取得了很多进展,但随着研究的深入,研究人员发现这些进展的泛化性并不如预期的优秀。传统语言模型的评估大多依赖于 GLUE 排行榜。截止至2022年,已经有超过20个单模型的结果在 GLUE 的测评上优于人工测评的表现。过去的工作证明了模型的表现并不是真正超过了人类,而是依靠伪特征(spurious features)和捷径学习(shortcut learning)取得了虚高的成绩。因此在模型拟合能力大大提升的今天,依靠传统 in-domain test 的 GLUE 榜单在实践中作为评估指标的实际价值较低。所以需要靠分布外泛化(Out of Distribution, OOD)来测试模型真正的泛化能力。以往的泛化评估通常是研究者自行选择数据集在1-2个任务上进行测试,缺乏 GLUE-X 这样全面评估模型泛化能力的基准。不同于 GLUE,当前最好的模型在 GLUE-X 表现仍明显逊于人类(74.6% vs. 80.4%)。

什么是分布外泛化?

假设有一个带标签的数据集合。通过从分布 P_train 中对 D 进行采样,生成一个训练数据集 D_train = {(X_train, Y_train)}。测试数据集 D_test = {(X_test, Y_test)} 是从 D 中按照分布 P_test 进行采样得到的。当 P_train ≠ P_test 时,称之为分布外泛化。 

而且在人工智能得以广泛运用的今天,构建负责任的人工智能需要模型具备足够的鲁棒性。但在 NLP 的过往研究中,OOD 并没有得到足够的关注且缺乏统一的评估基准,这限制了 NLP 系统在真实世界中的应用。

为了构建针对模型泛化能力的统一基准,研究员们创建了一个名为 GLUE-X 的评测榜单。首先,研究员们以 GLUE 上囊括的数据集作为领域内训练集,在8个文本分类任务上,构建了14个用于 OOD 测试的文本数据集。然后,又在21个常用的预训练模型(包括 InstructGPT 和 GPT 3.5)上利用领域内的训练集进行调参,得到领域内最佳性能的模型后,再在 OOD 文本数据集进行测试,以 OOD 数据上的表现作为模型泛化能力的指标,同时提供人类测评的结果作为参照。此外,研究员们还比较了不同的微调方式对模型泛化性能的影响,并利用 Rationale “事后分析”了模型在 OOD 数据上作出判断的理性依据,并与人工标注的数据进行比对分析,以帮助研究人员理解模型泛化能力的来源。 

c56034136106bbe7a0e17a87b18f7235.png

如图3所示,研究员们对每一个 GLUE 中出现的任务构建了对应的 OOD 数据。例如,对情感分析 SST-2 数据,选取了 IMDB、Yelp、Amazon 和 Flipkart 作为测试数据。对语法判断 COLA 数据,选取了自行收集的 Grammar Test(考题)作为测试数据。GLUE-X 总共包含十五组,超过600万条的泛化测试数据。在此基础上,研究员们对常见的 PLM 进行了全数据测试。亦对 InstructGPT 和 ChatGPT进行了采样测试。

bb6dd7596f3c4449a09d08dd42ace734.png

图3:不同 OOD 任务的测试结果

实验结果显示:

(1) 无论是最佳的有监督学习模型,还是 ChatGPT 大模型,在 GLUE-X 上的表现都远远低于人类。值得注意的是,人工测评也是在 OOD 条件下进行的(仅给人类 in-domain 的数据作为培训范例)。

(2) 没有一种模型能领跑所有任务,这与计算机视觉领域的研究结论一致。

(3) 模型架构 OOD 鲁棒性的影响比模型参数大小更为重要。模型的结构对于处理未预料到的输入更具有影响力。

(4) 对于文本分类任务来说,ID 和 OOD 的性能在大多数情况下呈线性相关,即如果在已知的数据分布上表现良好,那么在未知的数据分布上也可能会有较好的表现。

0543f373bd9c5151f25375cb82e28fac.png

表1: 不同模型在 GLUE-X 上的表现

 

「 更多干货,更多收获 」

b56e56da679ac62a154f1fd8d126c918.gif

 

【免费下载】2023年5月份全网热门报告合集

普通人如何利用ChatGPT变现赚钱?

无需翻墙,无需注册,ChatGPT4直接使用

ChatGPT提词手册,学完工作效率提升百倍

清华大学256页PPT元宇宙研究报告.pdf(附下载链接)

美团大脑系列之:商品知识图谱的构建及应用

【干货】2021社群运营策划方案.pptx

大数据驱动的因果建模在滴滴的应用实践

联邦学习在腾讯微视广告投放中的实践如何搭建一个好的指标体系?如何打造标准化的数据治理评估体系?

【干货】小米用户画像实践.pdf(附下载链接)

推荐系统解构.pdf(附下载链接)

短视频爆粉表现指南手册.pdf(附下载链接)

推荐系统架构与算法流程详解如何搭建一套个性化推荐系统?某视频APP推荐策略详细拆解(万字长文)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/10372.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为AIGC敲响警钟!千亿级赛道为何成了作恶温床?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 随着人工智能通用大模型的问世,全球对AIGC技术的强大潜力有了更加深刻的认识。然而,这也引发了诸多关于AIGC技术可信度、隐私保护以及知识产权等问题的争议,引起了广泛关注。 5月9日&…

Milvus应用开发实战【语义搜索】

美国总统竞选活动即将到来。 现在是回顾拜登政府上任头两年的一些演讲的好时机。 搜索一些演讲记录以了解更多关于白宫迄今为止关于某些主题的信息不是很好吗? 假设我们要搜索演讲的内容。 我们该怎么做? 我们可以使用语义搜索。 语义搜索是目前人工智能…

YC最新投资值得细琢磨!亲测爽飞的ChatGPT联网工具;阿里云大模型开启邀测;SD绘画新手入门手册 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『ChatGPT 恢复 Plus 订阅服务』实测,昨天确实巨卡 实测发现,OpenAI ChatGPT 已经恢复了 Plus 订阅服务&…

chatgpt赋能Python-python_theano

简介 什么是Python? Python是一种高层次、动态、解释型编程语言。它是一个易于学习且功能强大的语言,拥有广泛的应用领域。Python是由Guido van Rossum于1989年发明和开发的。它的设计哲学强调代码的可读性和简洁性,在保持语言的清晰和简洁性时&#…

chatgpt赋能python:Python编程:如何赚取高薪?

Python编程:如何赚取高薪? Python语言是一门被广泛使用的编程语言,因其简单易学,而在软件开发、数据分析、机器学习及人工智能等领域中得到了广泛应用。随着这些领域的不断发展,对Python开发人才的需求也越来越高涨。…

谷歌推Bard百度推文心一言:挑战ChatGPT 竞争白热化

雷递网 雷建平 2月7日 在ChatGPT大获成功的推动下,百度宣布将推出类ChatGPT项目,该项目名字确定为文心一言,英文名ERNIE Bot,三月份完成内测,面向公众开放。 目前,文心一言在做上线前的冲刺。 2022年9月&am…

软件行业的最后十年【ChatGPT】

在这篇文章中,我将说明像 ChatGPT 这样的生成式人工智能 (GAI) 将如何在十年内取代软件工程师。 预测被离散化为 5 个阶段,总体轨迹趋向于完全接管。 但首先,一个简短的前言。 推荐:用 NSDT场景设计器 快速搭建3D场景。 1、关于AI…

2022年全球程序员薪资排行榜单来了!中国程序员薪酬排名......

上一篇:赞!ChatGPT能接入微信了 身处互联网,或多或少都听说过,美国程序员的薪资非常高。 至于到底有多高?以前没多想,直到看到了2022年全球程序员薪资排行榜……我坐不住了。 而且在这份榜单中,…

Prompt Engineering | 对话聊天prompt

😄 使用LLM来搭建一个定制的聊天机器人,只需要很少的工作量。 ⭐ 本文将讲解如何利用聊天格式与个性化或专门针对特兹那个任务或行为的聊天机器人进行多伦对话。 文章目录 1、提供对话的早期部分,引导模型继续聊天2、示例:构建一个…

建议收藏chatGPT说的Ubuntu常用命令合集

写在前面 这个是当下最流行最时髦的AI神器chatGPT和我一起合作写的一篇通用技术文章,请读者笑纳! chatGPT说 咚咚咚,咚咚咚,嘿嘿;咚咚咚,咚咚咚,嘿嘿;AI等一会,我来发答案…

有点慌了!ChatGPT 可能影响 80% 工作岗位!

这是「进击的Coder」的第 818 篇技术分享 作者:机器之心编辑部 来源:机器之心报道 “ 阅读本文大概需要 9 分钟。 ” ChatGPT 的影响涵盖所有收入阶层,且高收入工作可能面临更大的风险。 ChatGPT 来了,失业还会远吗?前…

三分钟搭建一个自己的 ChatGPT (从开发到上线)

原文链接:https://icloudnative.io/posts/build-chatgpt-web-using-laf/ 视频教程:https://www.bilibili.com/video/BV1cx4y1K7B2/ 前提条件:你需要准备一个 ChatGPT 账号并且生成一个 API Key (这一步可以问 Google ) 云函数教学 首先需要登…

我的ChatGPT学习笔记001

大家好啊,我是了不起! 前一段时间ChatGPT突然火爆,大佬们纷纷下场。我也跟着努力学习,做了一些笔记。 下面将陆续放出笔记,共享给小伙伴们! 笔记一:ChatGPT的基础知识简介 1)什么是…

【微信小程序】2022最新用户信息授权方式

先看一波调整公告 用户信息授权方式变更为”头像昵称填写“ 最新授权方式 可自定义 也可使用微信信息 代码&#xff1a; <button class"avatar-wrapper" open-type"chooseAvatar" bind:chooseavatar"onChooseAvatar"><image class&qu…

1.下架已上线的小程序;2.设置不允许被用户搜索到

下架已上线的小程序&#xff1a; 登录微信开发者后台【设置】-【功能设置】-【暂停服务设置】-【暂停服务】&#xff0c;如图 设置小程序不允许被用户搜索到&#xff1a; 登录微信开发者后台【设置】-【功能设置】-【隐私设置】-【关闭】&#xff0c;如图 操作过程中遇到的问…

chatgpt赋能python:模拟手机App登陆:Python实现

模拟手机App登陆&#xff1a;Python实现 在移动互联网时代&#xff0c;手机App已经成为人们日常生活不可或缺的一部分。而对于开发人员来说&#xff0c;模拟App登陆是一项基本的技能要求。本文将介绍如何使用Python实现模拟手机App登陆&#xff0c;并进一步探讨其中的优势和应…

iOS-汤姆猫项目总结

功能分析 点击对应的按钮后&#xff0c;让汤姆猫展现对应的动画 步骤分析 1、搭建UI界面 2、监听按钮点击 3、根据点击的按钮执行对应的动画 知识点&#xff1a; 1、UIImageView帧动画的使用 2、UIImage的2种加载方式 3、重复代码的封装抽取 4、文档注释的写法 UIIm…

一夜爆火的现象级产品ChatGPT,是AI突破还是昙花乍现?

导语 | 编写代码、翻译小说、参加考试……2022 年末&#xff0c;人工智能聊天机器人 ChatGPT 风靡全网。自 2016 年 AlphaGo 击败围棋世界冠军李世石后&#xff0c;ChatGPT 再次掀起了人工智能发展应用的高潮。它将会给我们带来哪些影响&#xff1f;人工智能的颠覆性应用是否即…

ChatGPT泄露用户聊天记录标题;Adobe加入AIGC战局;阿里大模型前带头人杨红霞加盟字节跳动丨每日大事件...

‍ ‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 企业动态 诸葛智能推出“诸葛CDP 2.0”等三大产品升级 3月22日&#xff0c;容联云旗下场景化数据智能服务商“诸葛智能”举办2023春季发布会&#xff0c;推出客户数据管理平台“诸葛CDP 2.0”、一站式用户行为分析平台“…

刚问世的ChatGPT聊天机器人如何带你把握蔚来Android车载面试

2023年初&#xff0c;一款名为ChatGTP的AI聊天机器人引起了科技圈的骚动。 美国OpenAI公司2022年11月30日正式发布ChatGPT&#xff0c;上线仅5天&#xff0c;ChatGPT的注册用户数突破100万&#xff1b;今年1月末&#xff0c;ChatGPT的月活用户数破亿&#xff0c;就此成为史上用…