最强的数据增强--ChatGPT?

在许多自然语言处理(NLP)任务中,文本数据增强是克服样本量有限挑战的有效策略。

目前的文本数据增强方法要么不能保证生成数据的正确标记(缺乏可信度),要么不能保证生成数据的足够多样性(缺乏完整性),要么两者兼有。

ChatGPT在具有无与伦比的语言丰富性的数据上进行训练,并采用了具有大规模人类反馈的强化训练过程,这使得模型与人类语言的自然性具有亲和力。我们的文本数据增强方法ChatAug将训练样本中的每个句子重新表达为多个概念相似但语义不同的样本。然后,增强样本可以用于下游模型训练。

假设llm的发展将做到人类级别的注释性能,从而彻底改变NLP中的few-shot和多任务领域。

数据增强

数据增强,即通过转换人工生成新的文本,被广泛用于改进文本分类中的模型训练。在NLP中,现有的数据增强方法在不同的粒度级别上工作:字符、单词、句子和文档。

目前的文本数据增强方法问题:

•不能保证生成数据的正确标记(缺乏可信度),
•不能保证生成数据的足够多样性(缺乏完整性),

Few-shot Learning

Few-shot Learning ,专注于开发解决方案以应对小样本量的挑战。 FSL 研究旨在利用先验知识快速泛化到仅包含少量标记样本的新任务。 few-shot learning 的一个经典应用场景是当由于隐私、安全或道德考虑而难以或不可能获得监督示例时。

因此,本文提出的 ChatAug 方法已证明能够生成准确和全面的训练样本,可以克服当前 FSL 方法的问题,并有可能改变 NLP 中少样本学习的格局。

Very Large Language Models

大型语言模型旨在学习输入文本的准确潜在特征表示。这些大型语言模型的核心是受 BERT 和 GPT 启发的转换器模型,尽管规模要大得多。非常大的语言模型可以潜在地消除微调的需要,同时保持竞争性能 。

ChatGPT 基于 GPT-3 ,GPT-3 是在海量 Web 数据上训练的,信息多样且丰富。此外,ChatGPT 通过人类反馈强化学习 (RLHF) 进行训练。在 RLHF 期间,人类反馈被纳入生成和选择最佳结果的过程。更具体地说,奖励模型是根据人类注释者的排名或生成的结果来训练的。反过来,这个奖励模型奖励最符合人类偏好和人类价值观的模型输出。

method

Overall Framework

在这里插入图片描述

a(上图):首先, ChatGPT 进行数据扩充。将所有类别的样本输入 ChatGPT 并提示 ChatGPT 生成与现有标记实例保持语义一致性的样本。 b(下图):下一步,在少量样本和生成的数据样本上训练基于 BERT 的句子分类器,并评估模型的分类性能。

训练算法步骤:

在这里插入图片描述

Data Augmentation with ChatGPT

与 GPT 、GPT-2 和 GPT-3类似,ChatGPT 属于自回归语言模型家族,使用 transformer decoder blocks 作为模型骨干。

预训练期间,进行无监督的样本估计。ChatGPT被认为是来自一组样本

X = x 1 , x 2 , . . . , x n X = {x_1, x_2, ...,x_n} X=x1,x2,...,xn
的无监督分布估计,由m个token组成的样本 x_i定义为

x i = ( s 1 , s 2 , . . . , s m ) xi = (s_1, s_2, ..., s_m) xi=(s1,s2,...,sm)
预训练的目标是最大化以下似然:

在这里插入图片描述

其中 θ 表示 ChatGPT 的可训练参数。

tokens表示为
在这里插入图片描述

其中 W_e 是tokens(就个单词)嵌入矩阵,W_p 是位置(每个单词的位置)嵌入矩阵。

然后使用N个transformer块来提取样本的特征:

在这里插入图片描述

最后预测目标token:

在这里插入图片描述

其中 h_N 是顶部变压器块的输出。

预训练后,ChatGPT 的开发人员应用人类反馈强化学习 (RLHF) 来微调预训练语言模型。 RLHF 通过根据人类反馈对语言模型进行微调,使语言模型与用户对广泛任务的意图保持一致。

ChatGPT的RLHF包含三个步骤

step1:Supervised Fine-tuning (SFT)

ChatGPT 使用标记数据进行进一步训练。 AI 培训师扮演用户和 AI 助手的角色,根据prompt建立答案。带有prompt的答案构建为监督数据,用于进一步训练预训练模型。经过进一步的预训练,就可以得到SFT模型。

step2:Reward Modeling (RM)

基于 SFT 方法,训练奖励模型以输入提示和响应,并输出标量奖励。标记器将输出从最好到最差进行排名,以构建排名数据集。两个输出之间的损失函数定义如下:

在这里插入图片描述

其中θ_r是奖励模型的参数; x 是prompt,y_w 是 y_w 和 y_l 对中的首选完成; D_c 是人类比较的数据集。

step3:Reinforcement Learning (RL)

通过使用奖励模型,可以使用近端策略优化 (PPO) 对 ChatGPT 进行微调。为了修复公共 NLP 数据集的性能回归,RLHF 将预训练梯度混合到 PPO 梯度中,也称为 PPOptx:

在这里插入图片描述

其中 πRL φ 是学习的 RL 策略,θ_SFT 是监督训练模型,D_pretrain 是预训练分布。 γ是控制预训练梯度强度的预训练损失系数,β是控制KL惩罚强度的KL(Kullback-Leibler)奖励系数。

与以往的数据增广方法相比,ChatGPT 更适合数据增广,原因如下:

• ChatGPT 使用大规模语料库进行预训练,因此具有更广阔的语义表达空间,有助于增强数据扩充的多样性。

• 由于ChatGPT微调阶段引入了大量人工标注样本,ChatGPT生成的语言更符合人类的表达习惯。

• 通过强化学习,ChatGPT 可以比较不同表情的优缺点,确保增强数据具有更高的质量

总的来说,chatgpt的数据增强为样本分类提供了不少样本。

Few-shot Text Classification

应用 BERT 来训练少样本文本分类模型。 BERT顶层的输出特征h可以写为:

在这里插入图片描述

目标函数:小样本学习目标函数由两部分组成:交叉熵和对比学习损失。我们将 z_c 作为最终预测的分类器送入全连接层:

在这里插入图片描述

其中W_c和b_c为可训练参数,将交叉熵作为目标函数之一:

在这里插入图片描述

其中C是输出维度,等于基础数据集和新数据集标签空间的并集,y_d是ground truth。

然后,为了充分利用基础数据集中的先验知识来指导新数据集的学习,引入了对比损失函数,使同一类别的样本表示更加紧凑,不同类别的样本表示更加分离.同一批次样本对之间的对比损失定义如下:

在这里插入图片描述

在基础数据集上的 BERT 微调阶段,仅使用交叉熵作为目标函数。在few-shot learning阶段,结合交叉熵和对比学习损失作为目标函数:

评估指标

使用余弦相似度和 TransRate 作为指标来评估我们的增强数据的完整性(即,特征是否包含有关目标任务的足够信息)和紧凑性(即,每个类的特征是否足够紧凑以实现良好的泛化)。

嵌入相似度

评估数据增强方法生成的样本与实际样本之间的语义相似性,采用生成样本与测试数据集实际样本之间的嵌入相似性。将样本输入到预训练的 BERT 中,并使用 CLS 令牌的表示作为样本嵌入。余弦相似性度量遵循以下约定:

在这里插入图片描述

其中 A 和 B 分别表示比较中的两个嵌入向量。

TransRate

TransRate 是一种量化可迁移性的指标,它基于预训练模型提取的特征与其标签之间的互信息,单次通过目标数据。更高的 TransRate 可能表明数据的可学习性更好。更具体地说,从源任务 T_s 到目标任务 T_t 的知识迁移如下所示:

在这里插入图片描述

实验结果

分类性能比较

在这里插入图片描述

在这里插入图片描述

表 2 和表 3 显示 ChatAug 在 Symptoms 和 PubMed20K 数据集上都达到了最高的准确性。

在 PubMed20K 数据集中,ChatAug 对于 BERT 和具有对比损失的 BERT 均达到 83.5% 的准确率,而在没有数据增强的情况下,准确率分别仅为 79.2% 和 79.8%。在 Symptoms 数据集中,没有数据增强的 BERT 的准确率仅为 63.6%,而有 Contrastive loss 的准确率为 60.6%。 ChatAug 方法将准确率分别显着提高到 88.9% 和 89.9%。

这些结果表明,使用 ChatGPT 进行数据扩充对于增强机器学习模型在各种应用程序中的性能更为有效。

增强数据集的评估

该部分评估了增强数据在潜在空间中的性能,并在下图中可视化了结果。使用余弦相似性和 TransRate 度量评估潜在嵌入。

在这里插入图片描述

横轴表示余弦相似度值和Transrate值,纵轴表示分类准确率。由于嵌入式相似度衡量的是增强数据与测试数据集之间的相似性,相似度越高意味着增强数据与真实数据越匹配,并且具有更高的完整性和紧凑性。由于更高的 TransRate 可能表明数据的可学习性更好,因此更高的 TransRate 意味着具有更高质量的增强数据。

最理想的候选方法应该位于上图中可视化的右上角。如图 所示,ChatAug 在 Symptoms 数据集和 PubMed20K 数据集上的完整性和紧凑性方面都产生了高质量的样本。

总结

虽然上面的结果表示出chatgpt对于数据增强的强大能力,但还是存在局限性。由于缺乏特定领域知识,就可能产生不正确的增强数据。所以,未来的研究中,还是避免不了微调。

所提出的 ChatAug 方法在文本分类中显示出可喜的结果。未来研究的一个有前途的方向是调查 ChatAug 在更广泛的下游任务中的有效性。也就是提高其鲁棒性。

参考文献:

Dai H, Liu Z, Liao W, et al. ChatAug: Leveraging ChatGPT for Text Data Augmentation[J]. arXiv preprint arXiv:2302.13007, 2023.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/33693.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Chatgpt帮我写程序切分Midjourney生成的图片

背景:非程序员,只懂VBA,其他语言一概没入门。 这两天在尝试MJ在抖音上做图文的玩法,遇到一个问题,如何将MJ生成的一张4宫格图片切分成4张单独的图片,找了一圈,要是用图片处理软件,那…

爬取网易云音乐用户听歌排行,来制作一张Ta最爱歌手的词云图!

平时写代码的时候,作为云村用户的一员,我当然也是最爱开着网易云音乐(以下简称网易云)。大家都知道在网易云里你可以查看好友或是任意用户的听歌排行(假使Ta设置全部可见),但是如果想知道Ta喜欢…

【Python实战】爬取网易云音乐用户听歌排行,来制作一张Ta最爱歌手的词云图

前言 大家好,我是Samaritan。 平时写代码的时候,作为云村用户的一员,我当然也是最爱开着网易云音乐(以下简称网易云)。 大家都知道在网易云里你可以查看好友或是任意用户的听歌排行(假使Ta设置全部可见&am…

一招搞定某易云歌曲评论并生成漂亮词图,想爬什么歌就爬什么歌,练手推荐

网易云音乐一直是一个非常棒的听歌平台,尤其是推荐算法,我个人觉得是比某Q音乐更得人心,一直以来都用的都是网易云来听歌。 今天我就来教大家一个爬取网易云任意歌曲的评论并生成特殊词图的方法,对爬虫感兴趣的小伙伴们可以去试试…

足足 8 项新功能,微信可以和好友一同听歌了

本文转载自IT之家 此前,iOS 版微信已经陆续推出过 8.0.8 和 8.0.9 两次更新,加入了很多新功能,但安卓这边却一直没有动静。在历经了多日等待后,微信 8.0.9 安卓版也终于出现了。此次官方直接跳过了 8.0.8 这个版本,主…

最新【2021.1.28】今日头条_signature 分析

最新【2021.1.28】头条_signature 分析 【温馨提示】:此文仅适用PC端web版本某日某条加密 最新今日头条sign加密更新了,看了看,比之前的坑增加了许多; 今日头条web版的请求主要参数是:_signature,已经取消了之前的as、cp参数; 话不多说,开整。。。 1.参数定位 这个…

微信订阅号内测大改版,这一次更像「今日头条」了

微信订阅号想要「新生」。 2018 年 6 月,微信大部分用户都看到了自己的新版订阅号。在订阅号的改版中,文章变为了卡片式的内容展示。所有公众号不再分享一屏的手机屏幕,而是根据用户的阅读习惯,常读、收藏获得更大的卡片展示区域。…

如何实现今日头条跳转到微信?

说到付费搜索流量推广,大家第一时间想到的肯定是百度! 但真实做过百度的小伙伴知道,百度的智能推荐有多坑,如果没有自己调整成非智能推荐,那么流量费就会嗖嗖的消耗,却没有实际的收益。 头条的算法推荐跟…

今日头条最新_signature

本文仅供学习。 最新的今日头条sign参数的加密,链接是 https://www.toutiao.com/search/?keyword%E6%96%B0%E9%97%BB。 f12之后刷新网页 加密参数名称为_signature,然后全局搜索一下这个名字。 直接在这一行打断点,然后点击那个tacsign方法会到这里&a…

今日头条android+x86,GitHub - teajoyus/TouTiao: 今日头条 For Android

今日头条App 作为一个Web开发者,正好学校学习Android课程,所以跟着一起学习Android开发 ,作为我个人来说,学习一门语言不是看多少的书,而是首先上网学习基础知识,来github学习前辈们的项目源码,…

ChatGPT到底有多厉害,看看各个行业专家怎么说

我从2020年开始做AI传播,由于是非专业出身,这几年一直在努力学习和消化,也希望让更多非专业人士能懂AI。 ChatGPT(中文:小发猫)兴起后,我以最大热情去阅读论文和各种专业材料,包括反…

ChatGPT 因何爆火?

ChatGPT为什么会如此火热和流行呢?体验过的朋友应该都有类似的感觉:它的回答内容几乎和真人聊天的感觉类似,聊天的上下文有连贯的逻辑性,尤其让人震撼的是,它能够根据用户的描述直接写一段代码、写论文、写报告。 Chat…

智能医疗的主要应用场景和数据标注的关系

智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。 随着科技的进步,医疗行业也将融入更多人工智能,使医疗服务走向真正意义上…

【AI+医疗】人工智能在健康业务和临床管理中的应用

来源:专知 本文为书籍介绍,建议阅读5分钟这本实用的书是第一本描述AI可以帮助解决有害的医疗保健问题的当前和未来用例的书。 人工智能将改变医疗健康的方方面面,包括我们管理个人健康的方式,从客户体验和临床护理到降低医疗保健成…

医疗知识图谱问答系统探究

1、项目背景 中科院软件所刘焕勇老师在github上的开源项目,基于知识图谱的医药领域问答项目QABasedOnMedicaKnowledgeGraph。 项目地址:https://github.com/liuhuanyong/QASystemOnMedicalKG 本人为小白,然后一步步完成的。 知识图谱构建&am…

服务器温度3d显示,智能问答助手、3D可视化展示,腾讯医典“黑科技”助力科普更有温度...

创新科技与医学科普的融合,将带来什么样的变化? 5 月21- 23 日,腾讯全球数字生态大会在云南昆明举办。在智慧医疗专场,腾讯医典正式发布其在医学科普领域的两大前沿探索:智能问答助手,借助系统化医学知识图…

医疗保健数据接口_医疗保健中的人工智能

医疗保健数据接口 Introduction 介绍 Artificial intelligence refers to simulating the behavior of humans, so that machines can be programmed to perform intelligent behavior and mimic human actions. It is a branch of computer science dealing with building sm…

思腾合力 AI 医疗行业解决方案,高效提升诊断效率与服务质量

AI 赋能医疗,人工智能医疗简单说即以互联网为依托,通过基础设施的搭建及数据的收集,将人工智能技术及大数据服务应用于医疗行业中,提升医疗行业的诊断效率及服务质量。 在我国,人口老龄化、慢性病高速增长、医疗资源供…

互联网+智慧医疗:基于Python打造智慧医院项目之智能分诊

智慧医疗英文简称WIT120,是最近兴起的专有医疗名词,通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。 随着计算机科学技术的飞速发展&am…

在线付费问诊互联网医院智慧医疗系统包含哪些功能

伴随着互联网的发展,互联网医疗的互联网医院应运而生。在线付费问诊能够完成快捷的线上医疗服务板块,让有需求的用户能够只需求通过渠道就能够完成医疗问诊过程,大大提高了用户在治病就医方面的体验感,同时也能缓解线下门诊科室就…