chatgpt 数据相关应用论文策略简介

hatGPT等预训练大模型,一个核心能力就是经过海量语料的训练加上强化学习的引导,其具有强大的接近人类的文本生成能力。这个能力的一大用途,就是可以为我们生产数据或者标注数据,再基于这些数据训练我们自己的模型。

On the Feasibility of Specialized Ability Extracting for Large Language Code Models

这篇文章在代码总结,代码翻译,代码生成三种任务上,研究了如何利用预训练黑盒大模型生成训练数据。整体分成3个部分:首先人工基于多种类型的prompt生成问题;然后将问题输入到大模型中,产出答案;最后人工检查这些答案是否有效。获取到的所有有效答案,作为训练数据,训练下游的模型。通过这种方式生成的数据训练模型,可以达到和原大模型近似,甚至超过原大模型的效果。
在这里插入图片描述

AugGPT: Leveraging ChatGPT for Text Data Augmentation

这篇文章利用ChatGPT解决小样本场景下的模型训练问题。主要思路也是数据增强,将原始的少量样本,结合合适和prompt,输入到ChatGPT中,让ChatGPT生成语义相似的增强数据。在得到ChatGPT的增强数据后,使用原始数据+增强数据训练下游的BERT模型。
在这里插入图片描述
文中设计的prompt也很简单,就是告诉ChatGPT生成下面句子的一个语义相似版本。文中对比了使用ChatGPT进行数据增强,和使用其他传统方法(随机增删词、回译等)进行数据增强的效果对比,使用ChatGPT的增强数据取得了更优异的效果。

在这里插入图片描述

ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks

这篇文章对比了在各项NLP标注任务中,使用ChatGPT进行样本标注,对比使用人工进行样本标注的准确率,ChatGPT的标注效果已经超过了人工标注。并且使用ChatGPT进行标注,每条成本也只有大概0.003美元,比MTurk这种众包标注平台便宜20倍(看来ChatGPT对标注平台一定会造成不小的冲击)。

在这里插入图片描述

Is GPT-3 a Good Data Annotator?

这篇文章是2022年年底发表的,探讨了GPT3在训练数据标注和生成上的能力。文中尝试了多种类型的利用GPT-3进行数据标注的方法。包括利用prompt让GPT3为无标签数据打标、直接用prompt让GPT3生成有标签数据、利用维基百科引导GPT3生成领域特定样本等方法。文中使用这些方法在句子级别和token级别的任务上分别进行了对比,验证了GPT-3进行数据标注的能力,在文本分类任务上取得比较好的效果,但是在tagging任务上的效果不如文本分类。

在这里插入图片描述

InPars: Data Augmentation for Information Retrieval using Large Language Models

这篇文章主要针对的是检索任务,判断document和query的关系。其核心做法是,利用预训练语言模型生成训练document-query的正样本对作为训练数据。整个过程如下图。利用预训练语言模型的in-context learning能力,构造输入文本,包括多个document-query对例子,以及一个待生成训练数据的document,让语言模型生成query。从语言模型生成的多个query中,根据模型打分概率选择topK个query,作为当前document的正样本。利用这些模型生成的document-query对,作为训练数据,输入到下游模型中进行匹配任务的训练。
在这里插入图片描述
在实验中,文中尝试了如下两种类型的prompt来生成document对应的正例query。第一种方法给出简单的document+query例子。第二种方法在第一种方法的基础上,给了模型good question和bad question的例子。对于负样本,使用query+BM25检索出document,随机选择一个作为负样本。

在这里插入图片描述
整体的实验效果如下表,文中提出的模型为monoT5,从实验结果可以看出,利用文中的方法生成的训练数据,有助于检索模型的效果提升。
在这里插入图片描述

Large Language Models Are Human-Level Prompt Engineers

这篇文章利用预训练大模型生成合适的prompt。核心思路是利用训练数据构造demonstration,将其输入到预训练语言模型中,生成大量的prompt候选。文中提出了3种类型的prompt生成方法,并使用Execution accuracy或Log probability来评估prompt好坏,主要就是看使用当前prompt各个样本的打分效果好坏。用这种方式,可以将prompt生成和答案预测,都交给预训练模型自己完成。
在这里插入图片描述

Promptagator: Few-shot Dense Retrieval From 8 Examples

这篇文章主要针对小样本场景下的检索任务,利用少量的样本,结合预训练大模型来生成样本,以训练检索模型。文中的核心是prompt based query generation,利用少量query-passage样本和prompt构造输入,让预训练大模型根据语料库中的document生成相关的query,以此构造一批数据集,并基于这些数据训练检索模型。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5397.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

来了来了,我使用 ChatGPT 开发了一个 AI 应用

ChatGpt 实在太火爆了,很多人在问我怎么使用 chatgpt 开发一个 AI 应用程序。这不就来了吗~ 开始 你所需要准备的一个OpenAI 的密钥和一点点代码来发送提示并返回结果,例如下面这段代码: import { OpenAIApi, Configuration } from openai…

挑战 Google 搜索?OpenAI 发布最强 AI 对话系统 ChatGPT

GPT-3 发布的两年后,我们没等来它的亲弟弟 GPT-4,而是在今天亲眼见证了 OpenAI 带来了一种全新的 AI 聊天机器人——ChatGPT,也可以称之为是 GPT-3 家族里面的亲戚,它不仅可以解释代码、编写情景喜剧脚本,也可以为用户…

ChatGPT智能AI对话软件

ChatGPT智能AI的市场前景非常广阔,因为随着人工智能技术的不断发展和应用,人们对于智能AI对话系统的需求也越来越大。未来,智能AI对话系统将在各个领域得到广泛应用,例如智能客服、智能家居、自动驾驶等等,这些都有助于…

ChatGPT使用指南:求职外企简历中英文转换

正文共 531字,阅读大约需要 3 分钟 求职外企人群必备技巧,您将在3分钟后获得以下超能力: 1.专业级英文撰写 2.外文简历优化提升 Beezy评级 :B级 *经过简单的寻找, 大部分人能立刻掌握。主要节省时间。 推荐人 |Emily 编…

ChatGPT Plus 会员续费扣款失败如何处理

扣款失败 笔者由于开通 ChatGPT Plus 会员比较早,3月26日一个月就到期了,但是最近几天注意到,虚拟卡上也没有提醒我扣费,还是能继续使用 GPT-4.0,就很奇怪,于是就研究了一番。 PS: 如果有小伙伴还不会开通 …

chatgpt报错 Something went wrong 解决方法

Something went wrong. If this issue persists please contact us through our help center at help.openai.com. 1.网络无问题,使用Windows桌面板 使用 ChatGPT/README-ZH_CN.md at main lencx/ChatGPT (github.com)https://github.com/lencx/ChatGPT/blob/main…

ChatGPT的失败,是认知的失败,也是理解的失败

当下正在发生的事情,我们早已经历过,而且不止一次。 当下以及可见的未来,ChatGPT除了“比人类更有效地”完成报告和写作等“智能”任务外,更多的恐怕是更多的“想象”了!现在不是一些未知的东西正在做我们不知道的事情…

Word写论文注意事项

公式相关 公式最好用 Mathtype打,因为可以自动插入标号和引用。MathType7.4安装教程下载下来且pojie完成后,先要知道自己的word是32位的还是64位的,可以在word的账号的关于里查看。按照教程把MathPage.wll和MathType Commands 2016这两个文件…

Turnitin能识别AI撰写内容,留学生还能用ChatGPT写论文吗?

随着AI人工智能行业的不断成熟、便捷化,越来越多的同学尝试用ChatGPT帮助自己完成论文和作业。而随着ChatGPT的更新迭代,其对应的检测技术也应运而生,Turnitin AI detector就是其中之一,能够帮助教师确定学生在课堂上提交作业时是…

小狐狸ChatGPT最新1.8.3 版本源码全开源

ChatGPT付费创作系统【小程序版本】 (独立版分销万能创作) 风口项目,流量爆炸! 接入最强大的AI大模型ChatGPT官方接口,跟随官方脚步持续升级!

教大家如何识别ChatGPT3.5和ChatGPT4.0

教大家如何识别ChatGPT3.5和ChatGPT4.0 为什么写这篇文章,是因为目前市面上的镜像站很多接入的都是GPT3.5,但是冒充GPT4.0进行高价售卖。 很多人说识别很简单,直接提问就行了,但是你不知道的是网站的建设者是可以提前设定所谓的…

ChatGPT-4.5:AI技术的最新进展

✍创作者:全栈弄潮儿 🏡 个人主页: 全栈弄潮儿的个人主页 🏙️ 个人社区,欢迎你的加入:全栈弄潮儿的个人社区 📙 专栏地址:AI大模型 OpenAI最新发布的GPT-4,在聊天机器人…

对股票进行可视化分析

对一只股票的数据分析 前言一、数据爬取二、数据可视化分析1.近三年的走势2.股票点数的最大值区间3.每日低点分析4.高低开分析 三、 总结 前言 本文通过对股票数据的爬取,进而对这只股票进行可视化数据分析,分析的若有问题,大家可以在下方进行留言。 一、数据爬取 博主采用的…

ChatGPT有多强?真的能替代程序员?一起来看看!

最近网络上很多文章都在说ChatGPT,神乎其神,我也试着玩了一下,这里分享下过程。 从结果来说,它离替代程序员还有很长的一段路要做。因为程序的工作虽然是由各个小模块组成,但是一个系统性的大逻辑,可能是现…

ChatGPT 将如何影响编程行业?程序员是被将被替代?

ChatGpt 的背景 2022 年 11 月,ChatGpt 横空出世,已经发布就火出了圈,公开测试仅仅 60 天,活跃用户数量突破了 1 个亿,随后谷歌百度等等都宣布要推出自己的人工只能搜索引擎,chatgpt 到底是什么呢&#xf…

谷歌工程主管:三年內,ChatGPT将干掉所有程序员!

点击“开发者技术前线”,选择“星标” 让一部分开发者看到未 来源| 技术领导力(ID:jishulingdaoli) 近日,前哈佛大学计算机科学教授、谷歌工程主管 Matt Welsh 在美国计算机协会(ACM)的一个虚拟会议上表示,…

聊聊最近chatGPT对程序员的焦虑攻击

最近各种自媒体都在叛卖gpt职业焦虑,连程序圈子也不能幸免。甚至有正准备入行的同学私信我到底计算机还能不能学,研究生还能不能读。我985硕毕业,呆过大厂和小厂,现工作5年的程序员, 抛开那些胡吹海谈的软文&#xff0…

我使用chatGPT的4点感想

相信大家都听过chatGPT,不知道大家是否有用它。 chatGPT是什么呢?我先简单介绍下。 chatGPT是OpenAI公司创建的预训练语言模型,它是GPT(Generative Pre-trainning Transformer)模型的一个变体,基于GPT-3.5架…

ChatGPT 可以联网啦!

点击关注公众号:互联网架构师,后台回复 2T获取2TB学习资源! 上一篇:Alibaba开源内网高并发编程手册.pdf 自 ChatGPT 推出以来,大语言模型充斥着新闻版面。很多公司都在试图追赶 OpenAI,但作为先行者&#x…

ChatGPT造孽!中国高校因它算力荒

不做大模型,就没有算力用。 这是ChatGPT点燃AI风口后,国内某top3高校AI实验室的残酷现状。 同一个实验室里,非大模型团队6人用4块3090卡,比起同实验室的大模型团队10个人用10块A800卡,本就已经不算富裕。 现在&…