AI数据分析:用DeepSeek做数据清洗

在当今数据驱动的时代,数据分析已成为企业和个人决策的重要工具。随着人工智能技术的快速发展,AI 驱动的数据分析工具正在改变我们处理和分析数据的方式。本文将着重介绍如何使用 DeepSeek 进行数据清洗。

数据清洗是数据分析的基础,其目的是确保数据的准确性、完整性和一致性。常见的数据问题包括:

  1. 缺失值:数据中的某些字段为空。

  2. 重复值:数据中存在重复记录。

  3. 异常值:数据中存在明显偏离正常范围的数值。

  4. 不一致性:数据格式或单位不统一。

如果不进行数据清洗,这些问题会导致分析结果偏差,甚至误导决策。

以下是一个使用 DeepSeek 清洗销售数据的实际案例。

假设我们有一个销售数据表

订单ID商品ID商品名销量销售额(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E1500
1007102商品B8400
1008103商品C251250
1009106商品F00
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1017109商品I00
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G60
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1029107商品G552750
1030108商品H1809000

接下来我们用PromptIDE-提示词开发工具帮我们生成一个数据清洗的提示词。

生成的提示词如下:


# 角色: 
数据分析与数据预处理专家## 背景: 
用户在处理数据时遇到数据质量问题,需要对数据进行清洗以确保数据的准确性、完整性和一致性,从而为后续的数据分析或机器学习模型训练提供高质量的数据基础## 注意:
1、数据清洗是一个复杂且耗时的过程,但它是确保数据质量的关键步骤。
2、通过有效的数据清洗,可以显著提高数据分析的准确性和可靠性。## 技能:
1、熟悉数据清洗的常用技术和工具。
2、具备强大的数据处理和分析能力。
3、能够识别和处理数据中的异常值和缺失值。
4、能够设计和实施数据清洗流程。## 目标:
1、识别并处理数据中的异常值。
2、填补或删除数据中的缺失值。
3、标准化数据格式,确保数据一致性。
4、去除重复数据。
5、验证数据清洗后的质量。## 约束:
1、确保数据清洗过程不会引入新的错误。
2、遵守数据隐私和安全的相关规定。
3、在数据清洗过程中保持数据的原始结构和含义。## 输出:
1、清洗后的数据应以结构化表格形式输出。
2、数据清洗报告,包括详细记录清洗过程、问题发现及解决方法。
3、建议的进一步数据预处理步骤。## 工作流:
1、接收并分析用户提供的数据集和清洗规则。
2、识别数据中的异常值和缺失值。
3、根据清洗规则处理异常值和缺失值。
4、标准化数据格式,去除重复数据。
5、验证数据清洗后的质量,生成清洗报告。## 初始化:
Initialization: 在第一次对话中,请直接输出以下:欢迎使用数据清洗服务。请提供您需要清洗的数据文件,我将按照数据隐私和安全原则,为您进行高效、透明的数据清洗。您可以上传数据文件,告诉我您关注的数据质量问题,我将为您提供专业的解决方案。

接下来我们将这个提示词发给大模型看看效果。

数据清洗报告

1. 数据问题识别

通过初步分析,发现以下数据质量问题:

  1. 重复值:订单ID为 1029 的记录出现重复。
  2. 缺失值:订单ID为 1021 的记录中,销售额(元) 缺失。
  3. 异常值
    • 销量 为 0,但 销售额(元) 也为 0(订单ID:1009 和 1017),可能是无效记录。
    • 销量 和 销售额(元) 的比例异常(例如:订单ID:1006,销量为 1,销售额为 500,可能存在输入错误)。

2. 数据清洗过程
2.1 删除重复值

删除订单ID为 1029 的重复记录。

2.2 填充缺失值

对于订单ID为 1021 的缺失值,根据商品G的平均单价进行填充:

  • 商品G的销售额 = 销量 × 单价
  • 计算商品G的平均单价:(2500 + 2750) / (50 + 60) ≈ 48.18
  • 订单ID 1021 的销售额 = 60 × 48.18 ≈ 2891 元

填充后:

订单ID商品ID商品名销量销售额(元)
1021107商品G602891
2.3 标准化异常值处理
  1. 销量为 0 的记录

    • 删除订单ID为 1009 和 1017 的记录,因为其销量和销售额均为 0,属于无效数据。
  2. 比例异常记录

    • 对于订单ID 1006(销量为 1,销售额为 500),根据商品E的平均单价分析:
      • 商品E的平均单价 = (500 + 100 + 150 + 200) / (1 + 2 + 3 + 4) = 950 / 10 = 95 元
      • 修正订单ID 1006 的销售额为 1 × 95 = 95 元。

修正后:

订单ID商品ID商品名销量销售额(元)
1006105商品E195

3. 数据清洗结果

清洗后的数据集如下:

订单ID商品ID商品名销量销售额(元)
1001101商品A10500
1002102商品B5250
1003103商品C201000
1004101商品A15750
1005104商品D1005000
1006105商品E195
1007102商品B8400
1008103商品C251250
1010101商品A12600
1011104商品D301500
1012105商品E2100
1013107商品G502500
1014108商品H20010000
1015102商品B6300
1016103商品C18900
1018101商品A9450
1019104商品D402000
1020105商品E3150
1021107商品G602891
1022108商品H1507500
1023102商品B7350
1024103商品C221100
1025109商品I150
1026101商品A11550
1027104商品D351750
1028105商品E4200
1029107商品G552750
1030108商品H1809000

4. 下一步建议
  1. 数据验证:对清洗后的数据进行统计分析,确保数据分布合理,无异常值。
  2. 特征工程:如果需要构建机器学习模型,建议进一步对数据进行特征提取和标准化。
  3. 数据监控:建议建立数据质量监控机制,定期检查数据中的异常情况。


总之,我们借助PromptIDE+deepseek就可以轻松帮我们完成数据清洗了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/25846.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第2_3章_入门管理资源服务器

入门 对于某些应用程序,你可以参考以下资源,快速开始使用 Keycloak 授权服务: 在 Wildfly 中保护 JakartaEE 应用程序(https://github.com/keycloak/keycloak-quickstarts/tree/latest/jakarta/servlet-authz-client&#xff09…

2025年如何实现安卓、iOS、鸿蒙跨平台开发

2025年如何实现安卓、iOS、鸿蒙跨平台开发 文章目录 2025年如何实现安卓、iOS、鸿蒙跨平台开发1. 使用统一开发框架2. 华为官方工具链支持3. 代码适配策略4. 生态兼容性处理5. 性能与体验优化总结:方案选择建议 本文首发地址 https://h89.cn/archives/324.html 最新…

Azure Speech

1、文字转语音(Text-To-Speech, TTS) 2、语音转文字(Speech-To-Text): Azure Speech to Text 1- 环境配置:Microsoft Azure 注册使用免费服务: 需要信用卡,本人没有,所以没有完成注册

Cursor AI编程-详细教程

一点准备工作 Cursor方法论:简单到没有方法 Cursor能做什么 Cursor官网:https://www.cursor.com/ja Cursor文档:Cursor – Welcome to Cursor Cursor论坛:Weekly - Cursor - Community Forum 写程序代码 举例: 设…

Linux共享内存

共享内存原理 简而言之,就是两个进程指向了同一块物理空间。(它们都能看到同一块内存) 共享内存在内核中同时可以存在很多个,OS要管理所有的共享内存。 如何保证两个不同进程看到的是同一个共享内存呢??&…

搭建gn环境踩坑存档

流程 1. 项目根目录下新增.gclient和.gclient_entries //.gclient solutions [{"name": "src","url": "","managed": False,"custom_deps": {},"custom_vars": {},}, ]// .gclient_entries entries …

CMU15445(2023fall) Project #3 - Query Execution(上)详细分析

晚日寒鸦一片愁 柳塘新绿却温柔 若教眼底无离恨 不信人间有白头 ——鹧鸪天 完整代码见: SnowLegend-star/CMU15445-2023fall: Having Conquered the Loftiest Peak, We Stand But a Step Away from Victory in This Stage. With unwavering determination, we pre…

【网络安全 | 漏洞挖掘】利用文件上传功能的 IDOR 和 XSS 劫持会话

未经许可,不得转载。 本文涉及漏洞均已修复。 文章目录 前言正文前言 想象这样一个场景:一个专门处理敏感文档的平台,如保险理赔或身份验证系统,却因一个设计疏漏而成为攻击者的“金矿”。在对某个保险门户的文件上传功能进行测试时,我意外发现了一个可导致大规模账户接管…

知识图谱-资源网

知识图谱-资源网 http://openkg.cn/datasets-type/https://www.ownthink.com/knowledge.html

【湖北省计算机信息系统集成协会主办,多高校支持 | ACM出版,EI检索,往届已见刊检索】第二届边缘计算与并行、分布式计算国际学术会议(ECPDC 2025)

第二届边缘计算与并行、分布式计算国际学术会议(ECPDC 2025)将于2025年4月11日至13日在中国武汉盛大召开。本次会议旨在为边缘计算、并行计算及分布式计算领域的研究人员、学者和行业专家提供一个高水平的学术交流平台。 随着物联网、云计算和大数据技术…

【Qt】MVC设计模式

目录 一、搭建MVC框架 二、创建数据库连接单例类SingleDB 三、数据库业务操作类model设计 四、control层,关于model管理类设计 五、view层即为窗口UI类 一、搭建MVC框架 里面的bin、lib、database文件夹以及sqlite3.h与工程后缀为.pro文件的配置与上次发的文章…

Grok3使用体验与模型版本对比分析

文章目录 Grok的功能DeepSearch思考功能绘画功能Grok 3的独特功能 Grok 3的版本和特点与其他AI模型的比较 最新新闻:Grok3被誉为“地球上最聪明的AI” 最近,xAI公司正式发布了Grok3,并宣称其在多项基准测试中展现了惊艳的表现。据官方消息&am…

Pytest测试用例执行跳过的3种方式

文章目录 1.前言2.使用 pytest.mark.skip 标记无条件跳过3.使用 pytest.mark.skipif 标记根据条件跳过4. 执行pytest.skip()方法跳过测试用例 1.前言 在实际场景中,我们可能某条测试用例没写完,代码执行时会报错,或者是在一些条件下不让某些…

DeepSeek开源周Day5: 3FS存储系统与AI数据处理新标杆

项目地址: GitHub - deepseek-ai/3FS: A high-performance distributed file system designed to address the challenges of AI training and inference workloads.GitHub - deepseek-ai/smallpond: A lightweight data processing framework built on DuckDB and…

什么是多线程?线程池?

文章目录 一、什么是多线程?二、多线程的实现方法1. 继承Thread类,重写run方法2. 实现Runnable接口,并创建Thread对象3. Callable和Future 三、线程的5种状态**New(新创建)****Runnalbe(可运行)****Running****Blocked(阻塞)****等…

MES生产制造执行管理系统(源码+配套文档)

在当今竞争激烈的制造业环境中,企业要想保持竞争优势,就必须不断提升生产效率、优化管理流程。MES(制造执行系统)作为连接上层计划管理与底层工业控制的桥梁,正逐渐成为众多制造企业转型升级的关键工具。一个功能全面的…

AI伦理挑战:如何确保技术发展符合道德规范?

引言 随着人工智能(AI)技术的快速发展,我们正迎来一个前所未有的数字化时代。AI的应用已经渗透到医疗、教育、金融、交通等众多领域,极大地推动了生产效率的提升,改善了人们的生活质量。从智能医疗诊断到自动驾驶汽车…

Qt 自带颜色属性

Qt 系统自带颜色如下: enum GlobalColor {color0,color1,black,white,darkGray,gray,lightGray,red,green,blue,cyan,magenta,yellow,darkRed,darkGreen,darkBlue,darkCyan,darkMagenta,darkYellow,transparent};对应颜色如下: color0: 这是自定义颜色…

MySQL慢查询分析与处理

什么是慢日志 慢日志是MySQL用来记录数据库中执行较慢的SQL语句的日志,当数据库遇到性能问题时,慢日志可以帮助我们分析数据库中执行较慢的SQL。 如何打开数据库慢日志功能 MySQL默认是关闭慢日志功能的,可以从数据库中或者从配置文件中进行…

深度学习基础--ResNet50V2网络的讲解,ResNet50V2的复现(pytorch)以及用复现的ResNet50做鸟类图像分类

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 前言 如果说最经典的神经网络,ResNet肯定是一个,从ResNet发布后,作者又进行修改,命名为ResNe50v2&#xff0c…