ChatGPT实现数据集模拟生成,ChatGPT实现密码生成

数据集模拟生成

之前章节我们已经演示过ChatGPT 如何根据 prompt 编写文章或续写文章,文本生成的作用不仅仅在语文方面有用,本节我们演示另一种场景,利用 ChatGPT 来生成数据。看似作用差不多,其实这是目前开源社区非常常用的大语言模型研究中的一步,学名叫 self-instruction。简单来说,将一些人工编写好的或者挑选好的极少数训练数据,交给 ChatGPT 进行仿写,可以得到多出两三个数量级的新训练数据。这样有助于大语言模型的微调训练。

我们以北京航空航天大学开源的 LogQA 标注数据集(https://github.com/LogQA-dataset/LogQA/blob/main/data/Spark/qa.json.train)中的前十行训练数据为例,让 ChatGPT 来生成更多数据:

{"Question": "What stage was the task 28.0 completed in?", "Answer": "29.0", "RawLog": "Finished task 28.0 in stage 29.0 (TID 1348). 2128 bytes result sent to driver"} {"Question": "How many kb is broadcast_3 free?", "Answer": "318.5", "RawLog": "Block broadcast_3 stored as values in memory (estimated size 384.0 B, free 318.5 KB)"} {"Question": "Is partition rdd_42_18 found?", "Answer": "not", "RawLog": "Partition rdd_42_18 not found, computing it"} {"Question": "Is partition rdd_42_15 found?", "Answer": "not", "RawLog": "Partition rdd_42_15 not found, computing it"} {"Question": "How many kb is broadcast_24_piece0 free?", "Answer": "393.0", "RawLog": "Block broadcast_24_piece0 stored as bytes in memory (estimated size 5.6 KB, free 393.0 KB)"} {"Question": "Is partition rdd_42_4 found?", "Answer": "not", "RawLog": "Partition rdd_42_4 not found, computing it"} {"Question": "What is the ID for stage 7.0?", "Answer": "299", "RawLog": "Running task 1.0 in stage 7.0 (TID 299)"} {"Question": "What is the ID for stage 12.0?", "Answer": "494", "RawLog": "Running task 1.0 in stage 12.0 (TID 494)"} {"Question": "Is partition rdd_11_1 found?", "Answer": "not", "RawLog": "Partition rdd_11_1 not found, computing it"} {"Question": "What stage was the task 42.0 completed in?", "Answer": "24.0", "RawLog": "Finished task 42.0 in stage 24.0 (TID 1127). 2364 bytes result sent to driver"}

参照上面数据,仿写一批类似数据。

得到的 ChatGPT 生成结果如图:

对比原始数据可以发现,ChatGPT 完美的识别除了数据中哪些内容是可以被随机替换的,应该怎么替换,并且保证了在同一行内,相同的的内容,Question、Answer 和 RawLog 中保持一致。

有趣的是:ChatGPT 严格按照示例数据的样式,循环生成。我们给的 prompt 中,分别是 1 个 complate、1 个 kb、2 个 found、1 个 free、1 个 found、2 个 ID、1 个 found、1 个 complete,ChatGPT 生成 30 条也一模一样按照这个顺序循环 3 次。

所以如果要生成更多数据,或者生成均衡数据的,也可以分批分类生成。这里就不重复演示了。如果我们确实希望采用这种方式生成数以万计的训练数据,建议通过 API 方式调用 ChatGPT 服务。本书后续章节会介绍ChatGPT 的接口开通和调用方法,请参阅。

 

密码生成

个人密码强度非常重要,但是靠个人自己编写,总会不由自主的寻找一些有意义的、方便记忆的密码组合。市面上甚至有诸如 1passwd 之类的密码生成和管理器软件,来方便我们按需生成和保管不同网站的密码。

ChatGPT 也可以在这个时候帮我们的忙。为了加强 ChatGPT 生成的密码强度,我们把一些具体规则也通过 prompt 告知 ChatGPT,包括密码长度、数字、大小写、特殊符号的数量等等。

为那些需要安全密码的人提供密码生成器。我将为您提供包括“长度”、“大写”、“小写”、“数字”和“特殊”字符在内的输入表单。您的任务是生成一个复杂的密码使用这些输入形式,并提供给我。不要在回复中包含任何解释或其他信息,只需提供生成的密码。例如,如果输入的表单是长度= 8,大写= 1,小写= 5,数字= 2,特殊= 1,那么您的响应应该是一个密码,例如“D5%t9Bgf”。

然后尝试输入一次具体期望,看 ChatGPT 给我们的结果会是什么:

很有趣的结果产生了,我们实际数一数,ChatGPT 生成的密码,密码复杂度是:长度= 12,大写= 3,数字= 4,特殊= 3,小写= 2。看起来,ChatGPT 较差的数学水平再次暴露了!

不过,因为密码本身就需要随机性,这种"生成器"自己都测不准的结果,某种程度上来说,不符合我们在之前章节提及的错误会有严重影响的原则,倒也可以正常使用了。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/9657.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

将ChatGPT变成Midjourney提示生成器

已经有人总结过可以让ChatGPT作为Midjourney图像生成的模板。在本文中,我们将展示如何根据个人用例创建这些提示,这可以让ChatGPT生成的提示可控性更高。 选择提示模板 Midjourney的模板结构性很强,所以我们这里使用一下的结构: …

telnet登录并使用SMTP和POP收发邮件(QQ邮箱)

目录 一、POP3、SMTP和IMAP协议原理1、POP协议2、SMTP协议3、IMAP协议4、POP3与IMP3的差异 二、开启QQ邮箱的SMTP服务1、登陆QQ邮箱2、找到“POP3/SMTP服务”和“IMAP/SMTP服务”项3、需要发送短信到下面号码4、开启之后,系统会给你一个“授权码” 三、开启TELNET客…

首批 ChatGPT 应用将打响 To B 的编程应用争夺战!

整理 | 王启隆 何苗 出品 | CSDN(ID:CSDNnews) “ChatGPT 爆发意味着 AI 的 iPhone 时刻来了,下一步就是应用时刻,新应用时代将来临。那程序员怎么办呢?会被替代吗?我认为不会,但程序…

SQL优化这么做就对了

作者 | 狼爷 来源 | https://www.cnblogs.com/powercto/p/14410128.html 前言 在应用开发的早期,数据量少,开发人员开发功能时更重视功能上的实现,随着生产数据的增长,很多SQL语句开始暴露出性能问题,对生产的影响也越…

Oracle 如何使用 SQLT 进行 SQL 调优

作者 | JiekeXu 来源 |公众号 JiekeXu DBA之路(ID: JiekeXu_IT) 如需转载请联系授权 | (个人微信 ID:JiekeXu_DBA) 大家好,我是 JiekeXu,很高兴又和大家见面了,今天和大家一起来看看 Oracle 如何使用 SQLT 进行 SQL 调优&#xff…

SQL优化怎么做?大量数据实战分析

如果你对sql优化不了解,请认真看完这篇文章,并跟着文章动手操作一下,这篇文章讲解了所有方面的优化技巧 一:基础数据准备 二:五百万数据插入 上面插入几条测试数据,在使用索引时还需要插入更多的数据作为…

一次简单的postgreSQL的SQL语句优化实际案例

文章目录 业务背景初版查询SQL这段SQL有什么问题呢执行计划实际执行 初次优化执行计划2实际执行 继续优化再次优化的SQL执行计划3实际执行 疑问 业务背景 我上篇文章介绍了一个规则引擎的简单使用,主要就是为了众包业务批量录入数据的一些校验的统一管理&#xff0…

PostgreSQL之如何进行SQL优化?

文章目录 一、明确主题二、目标三、如何进行SQL优化?3.1 pg_stat_activity系统内置活动视图视图主要字段wait_event_typestate 3.2 pg_stat_statement SQL执行统计视图3.2.1 pg_stat_statements 视图详细说明中文版(简版) 3.2.2 常见案例 Top SQL 3.3 大表的索引使用…

以防作弊,ChatGPT 遭教育部「拉黑」:师生禁用!

来源:FUTURE远见 选编:FUTURE | 远见 闵青云 CSDN(ID:CSDNnews) 文 上个月,弗曼大学哲学助理教授 Darren Hick 逮到一个用 ChatGPT 写论文的作弊者后,就感慨:「ChatGPT 太先进了&am…

ChatGPT国产化:ChatYuan元语对话大模型升级

国产自研功能对话大模型元语 ChatYuan 于 2022 年 12 月发布测试版本后,引起社会各界人士的广泛讨论,并且收到了用户的大量反馈和宝贵建议。元语智能团队已于近日对元语 ChatYuan 进行了模型效果优化和版本功能升级,现已开放内测。 &#xff…

体验联网版 ChatGPT:优点和缺点同样明显,还藏着无限可能

ChatGPT 有点像古希腊的阿喀琉斯:它很强大,却有个致命的弱点——无法联网,这注定了它只能是一个停留在 2021 年的超人。 但很快,我们将等到一个「鱼和熊掌兼得」的时刻。 通过插件集的 Web browsing 功能,ChatGPT 就…

教你写接口需求文档

作者:果果 转载已取得作者授权 一、什么是接口 百科上对接口的定义:API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的…

什么是反向代理,开放的反向代理软件使用方法

什么是反向代理呢?其实,反向代理也就是通常所说的WEB服务器加速,它是一种通过在繁忙的WEB服务器和Internet之间增加一个高速的WEB缓冲服务器(即:WEB反向代理服务器)来降低实际的WEB服务器的负载。 Web服务器…

反向正向代理

https://www.zhihu.com/question/36412304

宝塔反代教程

近期有网友问宝塔如何设置反向代理,小编这里介绍一种简单的操作方法,就是使用宝塔官方软件面板自带的反向代理功能来实现。首先您要先安装宝塔面板,当Nginx或LNMP环境配置完成后,便可开始设置反向代理了,下面来看下操作…

[转发]图示说明正向代理和反向代理

关于代理 说到代理,首先我们要明确一个概念,所谓代理就是一个代表、一个渠道; 此时就设计到两个角色,一个是被代理角色,一个是目标角色,被代理角色通过这个代理访问目标角色完成一些任务的过程称为代理操…

Linux宝塔面板反向代理设置教程

此方法最简单快捷,没有复杂步骤,不容易出错,即最简单,零代码、零部署的方法。 实现准备 一台服务器安装宝塔面板OpenAI官方的API_KEYChatGPT网站系统源码 ChatGPT网站系统源码,大家可以看看另一篇文章介绍&#xff…

网关V.S反向代理

简介 网关主要服务于微服务/API,偏向研发人员反向代理主要面向传统静态web应用,偏向运维而未来趋势是DevOps网关和反向代理再次融合 发展趋势 WEB1.0/2.0时代,使用前置反向代理,由运维负责 nginx,进行反向代理和负载…

反向代理

先看这张图 反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一…

图解正向代理和反向代理

套用古龙武侠小说套路来说,代理服务技术是一门很古老的技术,是在互联网早期出现就使用的技术。一般实现代理技术的方式就是在服务器上安装代理服务软件,让其成为一个代理服务器,从而实现代理技术。常用的代理技术分为正向代理、反…