ListenData:如何使用 ChatGPT 进行数据科学

image-20230707132039972

在本文中,我们将探讨作为数据科学家如何使用 ChatGPT 来增强您的数据科学项目。ChatGPT 是一个功能强大的工具,可以在工作的各个方面为您提供帮助,从探索和分析数据到生成见解以及帮助您进行编码和故障排除。它还可以帮助您更快地学习数据科学。

目录

以下是数据科学的 ChatGPT 提示,按预测建模的不同步骤进行分类。

数据探索

我希望你扮演一个数据科学家的角色。编写用于数据探索的 python 代码。不要包括解释。

image-20230707132201639

上面的 Python 代码加载数据集并显示初始行。它还返回描述性统计信息、检查数据类型、计算相关性以及可视化关系和分布。此外,它还会创建相关热图、直方图、散点图和其他图,以帮助识别数据中的模式、趋势和关系。通过查看这些汇总统计数据和绘图,数据科学家可以生成见解并就预测建模的后续步骤做出决策。

以下是“数据探索”的前 15 个 ChatGPT 提示。

  1. 您能否提供数据集的概述,包括行数、列数和数据类型?
  2. 数据集中的关键变量或特征是什么?你能描述一下它们的意义或意义吗?
  3. 数据集中是否有任何缺失值?如果是这样,不同变量的缺失程度是多少?
  4. 您能否生成数值变量(如平均值、中位数、标准差和四分位数)的汇总统计数据?
  5. 您能否识别数据集中的任何异常值或极值?如何处理或进一步调查它们?
  6. 数值变量的分布特征是什么?它们是正态分布还是偏斜?
  7. 变量之间是否存在任何相关性?哪些变量彼此强相关或弱相关?
  8. 您能否提供一些可视化效果,例如直方图、箱形图或散点图来探索变量之间的关系?
  9. 如果适用,您能否识别数据集中随时间推移的任何模式或趋势?如何有效地将它们可视化?
  10. 数据集中是否有任何分类变量?有哪些独特的类别及其各自的频率?
  11. 您能否生成交叉制表或列联表来检查分类变量之间的关系?
  12. 特定变量中的最高值或类别是什么?例如,最常用的国家/地区或产品类别。
  13. 您能否探索数据集中的任何类不平衡问题,尤其是分类问题?
  14. 是否有任何需要解决的数据质量问题,例如重复或格式不一致?
  15. 目标变量或结果变量的行为如何?它的分布是什么,关于它与其他变量的关系是否有任何见解?

数据准备

我希望你扮演一个数据科学家的角色。编写用于数据准备的 python 代码。不要包括解释。

image-20230707132311043

上面的代码最初加载数据集。然后,它将因变量和自变量分开,然后执行特征缩放。我们可以通过要求 ChatGPT 识别和处理缺失值和异常值来进一步完善数据。

编写用于处理和处理缺失值和异常值的 python 代码。

image-20230707132422466

以下是“数据准备”的 15 个 ChatGPT 提示列表。

  1. 在分析之前,我应该遵循哪些步骤来清理和预处理原始数据?
  2. 如何处理数据集中的缺失值?您推荐任何插补技术吗?
  3. 您能解释一下特征缩放的概念并建议缩放数值变量的方法吗?
  4. 在数据准备过程中,我应该考虑任何异常值检测和删除技术吗?
  5. 我可以使用哪些策略来处理分类变量?我应该执行独热编码还是使用其他方法?
  6. 你能建议处理我的数据集中的类不平衡的方法吗?如何确保训练数据平衡?
  7. 如何处理数据集中的偏态分布?有什么转变可以提供帮助吗?
  8. 在数据准备中处理特征之间的多重共线性有哪些技术?
  9. 我应该从数据集中删除冗余要素吗?如果是这样,我应该使用什么标准进行功能选择?
  10. 如何处理数据集中的日期和时间变量?分析是否有任何具体的注意事项?
  11. 您能否解释一下数据规范化的概念并为我的功能建议规范化技术?
  12. 在数据准备中是否有处理文本数据的方法?如何将文本转换为数字表示形式?
  13. 能否提供有关将数据集拆分为训练集、验证集和测试集的指导?推荐的比例是多少?
  14. 如何在数据准备期间解决数据质量问题,例如重复或格式不一致?
  15. 我可以使用哪些常见的数据验证技术来确保准备好的数据集的完整性?

特征工程

我希望你扮演一个数据科学家的角色。编写用于特征工程的 python 代码,假设目标变量是二进制的。不要包括解释。

image-20230707132542545

从 ChatGPT 返回的 Python 代码显示了二进制目标变量的特征工程技术。代码加载数据集并使用标签编码对目标变量进行编码。然后,它使用卡方检验执行特征选择,基于领域知识创建新特征,生成交互特征,为分类特征创建虚拟变量,应用特征缩放,并删除不必要的列。这些步骤的目的是创建有意义的要素、处理分类变量和缩放数值要素。

以下是“特征工程”的十个提示。

  1. 什么是特征工程,为什么它在数据科学的背景下很重要?
  2. 你能解释一下如何使用卡方进行特征选择吗?
  3. 在特征工程过程中处理分类变量的一些常用技术有哪些?
  4. 您能否提供通过对现有变量的数学运算创建新特征的示例?
  5. 如何从文本数据中提取有意义的信息并创建有用的功能?
  6. 是否有任何技术可以转换数值变量以更好地拟合模型假设或提高可解释性?
  7. 您能解释一下独热编码的概念以及何时适合在特征工程中使用吗?
  8. 什么是交互功能,它们如何捕获变量之间的复杂关系?
  9. 在特征工程中是否有任何可以应用的降维技术?
  10. 如何使用域知识或外部数据源来创建有意义的要素?

模型构建

我希望你扮演一个数据科学家的角色。给定一个包含“损耗”作为目标变量的客户数据集。编写用于构建分类模型的 python 代码。不要包括解释。

image-20230707132726721

在上面的代码中,我们构建了一个随机森林模型。然后我们对测试集进行了预测。后来我们评估了模型。

可用于“模型构建”的其他 ChatGPT 提示如下。

  1. 模型构建的过程是什么,它如何适应更广泛的数据科学背景?
  2. 如何为我的特定问题确定适当的建模技术或算法?

超参数调优

我希望你扮演一个数据科学家的角色。给定分类模型,编写 python 代码来调整超参数。

image-20230707132845210

上面的代码定义了一个参数网格,其中包含超参数的不同值。该代码构建一个随机森林分类器,并通过交叉验证执行网格搜索,以找到超参数的最佳组合。获得最佳模型,并在测试集上评估其准确性。这有助于我们找到最佳超参数以提高模型的性能。

适用于 Python 的最佳 ChatGPT 提示

蟒蛇代码生成器

  1. 我希望你像一个Python代码生成器。请创建一个将执行[描述任务]的函数。
  2. 我希望你表现得像一个Python程序员。编写一个基于 [数据集] 计算 [指标] 的模块。

Python 代码解释器

我希望你表现得像一个Python解释器。我会给你Python代码,你会执行它。不要提供任何解释。除了代码输出之外,不要响应任何内容。第一个代码是:[插入代码片段]。

Python 代码优化器

我希望你像Python中的代码优化器一样。使代码更高效。[插入当前代码]

Python 代码调试器

我希望你表现得像一个Python开发人员。我收到以下错误[插入错误]。修复代码。[插入代码]

蟒蛇讲师

我希望你充当Python讲师。你能向我解释一下这段代码在做什么吗?[插入代码]

ChatGPT 提示“Pandas”和“NumPy”包

以下是“Pandas”和“NumPy”包中函数的前 15 个提示。

  1. “熊猫”库的目的是什么,数据操作和分析的基本功能是什么?
  2. 你能解释一下Pandas中“head()”和“tail()”函数之间的区别,以及如何使用它们来查看数据帧的第一行和最后几行吗?
  3. 如何使用 Pandas 中的 “describe()” 函数为数值数据生成描述性统计量?
  4. Pandas 中有哪些常用的数据过滤和选择功能,例如“loc[]”和“iloc[]”?
  5. 如何使用“dropna()”和“fillna()”等函数处理 Pandas 中的缺失值?
  6. 你能提供一些例子来说明如何使用Pandas中的“groupby()”函数执行分组和聚合操作吗?
  7. Pandas 中有哪些有用的函数用于对数据进行排序和排名,例如“sort_values()”和“rank()”?
  8. 您能否解释一下“numpy”库的目的,并重点介绍一些用于数值计算和数组操作的重要功能?
  9. 如何使用“numpy”函数(如“mean()”,“median()”和“std()”来计算数组或数据的汇总统计信息?
  10. NumPy 中有哪些常用的数组重塑函数,例如“reshape()”和“flatten()”?
  11. 如何使用“add()”、“subtract()”、“multiply()”和“divide()”等函数对 NumPy 数组执行元素级操作?
  12. 什么是 NumPy 中的广播和矢量化,它们如何提高阵列操作的效率?
  13. 你能提供使用“numpy.where()”函数对数组执行条件操作的例子吗?
  14. NumPy中有哪些有用的函数来处理随机数和概率分布,例如“random.rand()”和“random.choice()”?
  15. 如何使用 Pandas 中的“apply()”函数将自定义函数应用于数据帧的元素、行或列?

适用于 SQL 的最佳 ChatGPT 提示

以下是 SQL 的前 10 个 ChatGPT 提示。

  1. 我希望你表现得像一个SQL开发人员。解释此 SQL 代码 [插入代码]
  2. 我希望你表现得像一个SQL代码优化器。请优化代码以使其更高效 [插入 SQL]
  3. 我希望你表现得像一个SQL格式化程序。请格式化以下 SQL 代码。[插入代码]
  4. 请将此python代码翻译成SQL。[蟒蛇代码]
  5. 我有一个包含三列的表格[插入列名]。编写 SQL 代码来计算运行平均值。
  6. 我希望你像一个数据生成器。请编写 SQL 查询,以创建带有列 [列名] 的表 [表名称]。包括相关约束和索引。
  7. 我希望你表现得像一个SQL开发人员。我收到以下错误[插入错误]。请修复它。[插入SQL代码]
  8. 请解释 SQL 代码 [插入代码]

用于数据科学的最佳 ChatGPT 插件

以下是顶级 ChatGPT 插件,可帮助您处理数据科学项目的不同方面。

  1. ChatGPT Plugin for MS Excel :ChatGPT Plugin for MS Excel 在 Excel 中提供了交互式聊天机器人功能,允许用户在 Excel 中提出问题并接收来自 ChatGPT 的回复。无论您是需要数据分析,公式建议还是一般Excel用法方面的帮助,MS Excel的ChatGPT插件都能满足您的需求。
  2. ChatGPT插件MS Word:它可以帮助您编写内容。您可以在MS Word中寻求写作建议并执行语法检查。例如,您只需单击一个按钮即可生成简历或求职信。此外,您可以通过对话和交流想法来进一步增强它以改进内容。
  3. ChatGPT Plugin for MS PowerPoint :ChatGPT Plugin for MS PowerPoint 可帮助您更快、更轻松地创建演示文稿。通过将ChatGPT集成到PowerPoint中,它允许您进行交互式对话,以帮助您创建引人入胜的内容。简单来说,它可以帮助您轻松创建有影响力的演示文稿,使流程更加高效和有效。
  4. 代码解释器:它可以执行数据分析并生成图形。它还可以解决数学方程并执行Python代码。它还支持上传和下载。
  5. Wolfram Alpha: 它提供了强大的计算能力、精确的数学能力、精心策划的知识、实时数据和可视化工具。
  6. Zapier:它可以自动执行重复性任务,并将 5,000 多个应用程序集成到您的工作流程中。
  7. 链接阅读器:它可以从网页,PDF,PPT,图像,Word和其他文档中读取内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/21653.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond

LLM的系列文章,针对《Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond》的翻译。 在实践中驾驭LLM的力量——ChatGPT及其后的研究综述 摘要1 引言2 模型实用指南2.1 BERT风格的语言模型:编码器-解码器或仅编码器2.2 GPT风格…

外资企业可以在中国上市吗

一、外资企业可以在中国上市吗 外资企业依照相关法律规定是可以在中国上市的。 需要满足的条件: (一)股票已公开发行; (二)公司股本总额不少于3000万元; (三)公开发行的股…

一种pluntUML实时渲染图片的方法

最近接触到pluntUML,一个很神奇的uml工具,可以非常方便地画流程图、序列图等。 其使用方法,按照从网上检索的文章中,大都是将pluntUML配合文件编辑器(sublime,vscode)使用,并且需要设…

ChatGPT的打字回复效果,原理是什么?我带你们实现!

当下圈内比较火的非 chatGPT 莫属了。 chatGPT 回复效果 相信使用过 chatGPT 的朋友,都会看到,当你提问一个问题时,chatGPT 会一字一字地给你展示出来,而不是一次性给你返回,如下图: 这样做的好处&#xff…

clickhouse数据去重函数介绍(count distinct)

clickhouse提供了许多的去重函数,有精确去重的以及非精确去重的,下面介绍下两种 非精确去重函数:uniq、uniqHLL12、uniqCombined 精确去重函数:uniqExact、groupBitmap 测试数据量:2000w SELECT count(id) from tab…

消息幂等(去重)通用解决方案,真顶!

作者 | 薛定谔的风口猪 来源 | https://jaskey.github.io/blog/2020/06/08/rocketmq-message-dedup/ 消息中间件是分布式系统常用的组件,无论是异步化、解耦、削峰等都有广泛的应用价值。我们通常会认为,消息中间件是一个可靠的组件——这里所谓的可靠是…

TP6关联统计无法去重的解决方案

在tp6中官方手册跟源码中是没办法做到去重关联统计的,因为源代码中的withCount方法,默认是以“*”进行统计。当我们想要统计类型有多少,而不是数量有多少的时候就会非常麻烦。 这时候需要修改源码,将默认的“*”,改成传…

postgreSql根据多个字段去重详细流程

postgreSql根据多个字段去重详细流程 这是测试表的建标语句,需要的可以拿去用。 CREATE TABLE "public"."class_name" ("id" int4 NOT NULL DEFAULT nextval(id::regclass),"class_no" varchar(50) COLLATE "pg_cat…

mysql去重函数:DISTINCT ,与GROUP_CONCAT结合去重

mysql去重函数:DISTINCT ,与GROUP_CONCAT结合 创建表语法distinct多字段去重DISTINCT 结合 group 统计实例 创建表 DROP TABLE IF EXISTS qipa_shop; CREATE TABLE qipa_shop (price varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci N…

tp6 count distinct统计时根据字段去重

代码: AppointmentModel::field([identity])->count(distinct identity)生成的sql: SELECT COUNT(DISTINCT identity) AS think_count FROM dg_appointment;下面是tp6手册内容 我尝试着这样写 发现生成的sql不对 AppointmentModel::distinct(tru…

oracle listagg如何去重

listagg去重 去重思路:利用listagg会忽略null值的特点 按ENTITY_GROUP_RRN 分组,用 listagg 分别合并 EQPT_ID 与 STATION_ID ,同时要求去重 表 T_TEST 数据如下: EQPT_IDENTITY_GROUP_RRNSTATION_IDTOOL-00110493721JITAI-1TO…

【数据去重】海量数据实时去重方案

文章目录 Prologue布隆过滤器去重什么是布隆过滤器实现的核心思想怎么理解 内嵌RocksDB状态后端去重引入外部K-V存储去重 Prologue 数据去重(data deduplication)是我们大数据攻城狮司空见惯的问题了。除了统计UV等传统用法之外,去重的意义更…

listagg结果去重

最近在一个项目中用到了listagg方法,但是在组合结果中出现有重复的情况。默认的结果如下 于是我就写了一个方法对listagg的结果去重,也可以对该格式的字符串去重,方法如下 create or replace function listaggpure(targetStr varchar2,seper…

非常实用的5种json数组去重方法,函数实现思路竟是chatgpt帮我写的!

文章目录 人工智能福利文章方法一 reduce实现思路 方法二 filter和Map实现思路 方法三 变异for实现思路 方法四 for filter实现思路 方法五 for实现思路 写在最后 人工智能福利文章 【分享几个国内免费可用的ChatGPT镜像】【10几个类ChatGPT国内AI大模型】【用《文心一言》1分…

AI自动播——AI虚拟主播帮你实现24小时直播带货技术分享

如今很多淘宝天猫商家会在做直播的时候,会遇到真人主播难招或者真人主播直播时长有限,那么有什么办法解决这个难题呢,这个时候就可以用AI自动播了,也就是AI虚拟主播直播带货。具体怎么操作呢?下面一起来看看吧。 AI自动…

亚马逊账号被关联能申诉得回来吗

关于亚马逊账号被关联能申诉回来吗?小编有话要说。 其实小编是一个特别谨慎的人,在初入亚马逊之前,会了解到亚马逊所有的问题之后,才会注册账号。那么要了解的有什么呢?注册需要的信息,注册的规则&#xf…

社区1月热门文章、ChatGPT工具汇总,强化学习安全和隐私、斯坦福大学CS234《智源社区强化学习周刊》第75期...

No.75 智源社区 强化学习组 强 化 学 习 研究 观点 资源 活动 社区热门文章 Google发布Bard与ChatGPT竞争 https://hub.baai.ac.cn/view/23925 纽约时报:ChatGPT诞生背后的故事 https://hub.baai.ac.cn/view/23835 ChatGPT提示与AI工具、开发工具、低代码工具汇总 《…

5款超实用的免费AI工具,让你轻松提升工作效率!

目录 1、AiChat 产品特点 任意选择内置角色对话 自定义AI角色进行对话 推荐理由🌟🌟🌟🌟🌟 2、MINISTER AI 产品特点 集成ChatGPT聊天 简化Stable Diffusion 集成Midjourney模式 训练并分享模型 推荐理由&a…

13 款炫酷的 MySQL 可视化管理工具!好用到爆!!

MySQL 的管理维护工具非常多,除了系统自带的命令行管理工具之外,还有许多其他的图形化管理工具,工具好用是一方面,个人的使用习惯也很重要,这里介绍 13 款 MySQL 图形化管理工具,供大家参考。 1、DBeaver D…

GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用

查看原文>>>GPT模型支持下的Python-GEE遥感云大数据分析、管理与可视化技术及多领域案例应用 目录 第一章、理论基础 第二章、开发环境搭建 第三章、遥感大数据处理基础与ChatGPT等AI模型交互 第四章、典型案例操作实践 第五章、输入输出及数据资产高效管理 第…