hatGPT等预训练大模型,一个核心能力就是经过海量语料的训练加上强化学习的引导,其具有强大的接近人类的文本生成能力。这个能力的一大用途,就是可以为我们生产数据或者标注数据,再基于这些数据训练我们自己的模型。
On the Feasibility of Specialized Ability Extracting for Large Language Code Models
这篇文章在代码总结,代码翻译,代码生成三种任务上,研究了如何利用预训练黑盒大模型生成训练数据。整体分成3个部分:首先人工基于多种类型的prompt生成问题;然后将问题输入到大模型中,产出答案;最后人工检查这些答案是否有效。获取到的所有有效答案,作为训练数据,训练下游的模型。通过这种方式生成的数据训练模型,可以达到和原大模型近似,甚至超过原大模型的效果。
AugGPT: Leveraging ChatGPT for Text Data Augmentation
这篇文章利用ChatGPT解决小样本场景下的模型训练问题。主要思路也是数据增强,将原始的少量样本,结合合适和prompt,输入到ChatGPT中,让ChatGPT生成语义相似的增强数据。在得到ChatGPT的增强数据后,使用原始数据+增强数据训练下游的BERT模型。
文中设计的prompt也很简单,就是告诉ChatGPT生成下面句子的一个语义相似版本。文中对比了使用ChatGPT进行数据增强,和使用其他传统方法(随机增删词、回译等)进行数据增强的效果对比,使用ChatGPT的增强数据取得了更优异的效果。
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
这篇文章对比了在各项NLP标注任务中,使用ChatGPT进行样本标注,对比使用人工进行样本标注的准确率,ChatGPT的标注效果已经超过了人工标注。并且使用ChatGPT进行标注,每条成本也只有大概0.003美元,比MTurk这种众包标注平台便宜20倍(看来ChatGPT对标注平台一定会造成不小的冲击)。
Is GPT-3 a Good Data Annotator?
这篇文章是2022年年底发表的,探讨了GPT3在训练数据标注和生成上的能力。文中尝试了多种类型的利用GPT-3进行数据标注的方法。包括利用prompt让GPT3为无标签数据打标、直接用prompt让GPT3生成有标签数据、利用维基百科引导GPT3生成领域特定样本等方法。文中使用这些方法在句子级别和token级别的任务上分别进行了对比,验证了GPT-3进行数据标注的能力,在文本分类任务上取得比较好的效果,但是在tagging任务上的效果不如文本分类。
InPars: Data Augmentation for Information Retrieval using Large Language Models
这篇文章主要针对的是检索任务,判断document和query的关系。其核心做法是,利用预训练语言模型生成训练document-query的正样本对作为训练数据。整个过程如下图。利用预训练语言模型的in-context learning能力,构造输入文本,包括多个document-query对例子,以及一个待生成训练数据的document,让语言模型生成query。从语言模型生成的多个query中,根据模型打分概率选择topK个query,作为当前document的正样本。利用这些模型生成的document-query对,作为训练数据,输入到下游模型中进行匹配任务的训练。
在实验中,文中尝试了如下两种类型的prompt来生成document对应的正例query。第一种方法给出简单的document+query例子。第二种方法在第一种方法的基础上,给了模型good question和bad question的例子。对于负样本,使用query+BM25检索出document,随机选择一个作为负样本。
整体的实验效果如下表,文中提出的模型为monoT5,从实验结果可以看出,利用文中的方法生成的训练数据,有助于检索模型的效果提升。
Large Language Models Are Human-Level Prompt Engineers
这篇文章利用预训练大模型生成合适的prompt。核心思路是利用训练数据构造demonstration,将其输入到预训练语言模型中,生成大量的prompt候选。文中提出了3种类型的prompt生成方法,并使用Execution accuracy或Log probability来评估prompt好坏,主要就是看使用当前prompt各个样本的打分效果好坏。用这种方式,可以将prompt生成和答案预测,都交给预训练模型自己完成。
Promptagator: Few-shot Dense Retrieval From 8 Examples
这篇文章主要针对小样本场景下的检索任务,利用少量的样本,结合预训练大模型来生成样本,以训练检索模型。文中的核心是prompt based query generation,利用少量query-passage样本和prompt构造输入,让预训练大模型根据语料库中的document生成相关的query,以此构造一批数据集,并基于这些数据训练检索模型。