2023年3月23日(星期四)11:00-12:00,由智源社区主办的「智源LIVE 第35期线上活动:哈佛大学医学院和麻省总医院讲师李响博士分享《AugGPT:利用ChatGPT进行文本数据增强》。本期活动将在线举办,「阅读原文」报名即可参加。
李响
李响博士毕业于上海交通大学自动化系本科, 获美国佐治亚大学计算机科学博士,师从佐治亚大学杰出教授,美国医学与生物工程院(AIMBE)会士刘天明教授。2016年毕业后任哈佛大学医学院和麻省总医院博士后,接受美国医学院院士,前麻省总医院放射科主任James Thrall和麻省总医院先进医学计算和分析中心 (CAMCA)主任李全政教授的指导,现任职讲师。
李响博士主要从事机器学习,人工智能及大数据科学在医学健康领域中的解决方案研究和算法开发。李响博士在领域顶级期刊及国际会议上发表了百余篇学术论文,并于2019年起创办了International Workshop on Multiscale Multimodal Medical Imaging会议。其多项研究获得来自美国国立卫生研究院(NIH)和麻省总医院的资助,并获得多项期刊与会议奖项。
个人主页
https://xiangli-shaun.github.io
AugGPT:利用ChatGPT进行文本数据增强
文本数据增强可以帮助我们克服许多自然语言处理(NLP)任务中因为样本量稀缺带来的挑战。特别在少样本学习(Few-shot Learning)场景中,因为在目标域(新知识)上有标注的样本一般较为稀缺且质量较低,这一挑战尤为突出。数据增强策略通过更好地捕获数据的不变性以此增加样本量,经常用于解决样本稀缺问题。然而当前的文本数据增强方法,无论是基于规则的或者基于数据的,都欠缺在生成的增强数据上的忠实性(与原始样本的相似度)以及紧凑型(在各个类别之间的区分度)。
在这篇工作中,我们利用大型语言模型(LLM),特别是ChatGPT,提出了一个文本数据增强方法(AugGPT)。AugGPT将训练样本中的每个句子利用ChatGPT重新表述为多个在概念上类似但在语义上不同的样本。通过三个少样本学习的实验,我们发现AugGPT产生的增强样本可以有效用于下游模型的训练,并且带来的下游模型准确率提升明显优于当前其他的文本数据增强方法。
基于AugGPT的成功,我们预见包括ChatGPT和GPT-4在内的一系列通用人工智能模型会给很多传统的语言处理甚至图像处理领域带来颠覆性变革。因此在报告中还会介绍我们当前正在进行的,特别在健康领域一系列基于LLM的语言处理方法研究以及我们对于在通用人工智能框架下多模态数据融合的展望。
活动时间:3月23日(周四)11:00-12:00、
活动形式:线上直播,扫描下方二维码报名或点击阅读原文报名