AI知识架构之数据采集

数据采集

  • 数据格式
    • 结构化数据:以固定格式和结构存储,如数据库中的表以及 Excel 表格,易于查询和分析。
    • 半结构化数据:有一定结构但不如结构化数据严格,XML 常用于数据交换,JSON 在 Web 应用中广泛用于数据传输和存储。
    • 非结构化数据:无预定义结构,文本、图像、音频和视频属于此类,处理和分析这类数据需特定技术。
    • 实时数据流:由传感器和物联网设备实时产生,需实时处理以获取及时洞察。
  • 采集方法
    • 基于文件传输:通过 FTP(文件传输协议)或 SFTP(安全文件传输协议)在不同系统间传输数据文件。
    • 数据库导入:利用 JDBC(Java 数据库连接)或 ODBC(开放数据库互连)标准接口从数据库提取数据。
    • 网络爬虫:通过发送 HTTP 请求获取网页内容,再解析 HTML 提取数据,但需遵守网站的 robots 协议。
    • 消息队列:像 Kafka 和 RabbitMQ,可异步处理和缓冲数据,在高并发场景下保证数据的可靠传输。
    • 数据集成工具:Talend 和 Informatica 等工具提供图形化界面,简化复杂的数据集成任务。
    • 传感器数据获取:从各类传感器采集物理世界的数据,如温度、湿度等。
  • 数据质量把控
    • 准确性提升策略:通过数据验证、与权威数据源比对等方式提高数据准确性。
    • 完整性检查措施:检查数据记录和字段是否完整,确保无遗漏。
    • 一致性保障手段:保证数据在不同系统和存储中的一致性,避免冲突。

数据清洗

  • 数据质量问题
    • 缺失值:因数据录入遗漏、系统故障等原因产生,影响数据分析结果准确性。
    • 重复值:包括记录重复和字段重复,会干扰分析并浪费存储资源。
    • 错误值:格式错误(如日期格式错误)或逻辑错误(如年龄为负数)影响数据可用性。
    • 异常值:偏离其他数据的离群点,可能由数据录入错误或真实异常情况导致。
  • 清洗技术
    • 缺失值处理:可删除缺失值过多的记录,或用均值、中位数等填充,也可采用插补技术如线性插补。
    • 重复值删除:依据唯一标识或相似度匹配算法找出并删除重复记录。
    • 错误值纠正:通过数据验证规则和模式匹配纠正错误。
    • 异常值处

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/22919.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

特辣的海藻!2

基础知识点 整型数字-->字符数字 方法一:使用Character.forDigit()方法 Character.forDigit(int num, int radix) 该方法可以将整型数字转换为对应的字符形式。radix表示进制 Tips: ● 需要转换的整型数字必须在 0 到 radix-1 的范围内,…

RoCEv2 高性能传输协议与 Lossless 无损网络

目录 文章目录 目录RoCERoCEv2 协议栈RoCEv2 需要 Lossless NetworkLossless Network 拥塞控制技术网络拥塞的原因PFC 基于优先级的流量控制PFC Deadlock(死锁)的问题PFC Storm(风暴)的问题ECN 显式拥塞通知拥塞控制ECN 拥塞控制滞…

win10把c盘docker虚拟硬盘映射迁移到别的磁盘

c盘空间本身就比较小、如果安装了docker服务后,安装的时候没选择其他硬盘,虚拟磁盘也在c盘会占用很大的空间,像我的就三十多个G,把它迁移到其他磁盘一下子节约几十G 1、先输入下面命令查看 docker 状态 wsl -l -v 2、如果没有停止…

论文笔记:Autonomy-of-Experts Model

202501 arxiv 1 intro MoE中常被忽视的一个关键问题是路由器的决策过程与专家执行之间的分离 路由器无法直接评估专家的能力,因此它对专家的选择基本上是没有标签的预测如果路由器做出了错误的预测,选择的专家可能会试图处理这些令牌,但未能…

deepseek 清华大学[1-5版]全集

1、文件概览 1、清华大学《DeepSeek:从入门到精通》 2、清华大学《Deepseek如何赋能职场应用?》 3、清华大学《普通人如何抓住DeepSeek红利》 4、清华大学《DeepSeekDeepResearch让科研像聊天一样简单》 5、清华大学《DeepSeek与AI幻觉》 6、天津大学《深度解读Deepseek:原理…

【Git 学习笔记_27】DIY 实战篇:利用 DeepSeek 实现 GitHub 的 GPG 秘钥创建与配置

文章目录 1 前言2 准备工作3 具体配置过程3.1. 本地生成 GPG 密钥3.2. 导出 GPG 密钥3.3. 将密钥配置到 Git 中3.4. 测试提交 4 问题排查记录5 小结与复盘 1 前言 昨天在更新我的第二个 Vim 专栏《Mastering Vim (2nd Ed.)》时遇到一个经典的 Git 操作问题:如何在 …

H5 火柴人科目三和GitHub获取仓库点星星的用户列表发生了艺术的碰撞

先看效果,代码写的比较乱,有待优化 效果 https://linyisonger.github.io/H5.Examples/?name./089.%E7%9C%8B%E6%98%9F%E6%98%9F%E7%9A%84%E8%88%9E%E8%80%85.html 思路 看起来很简单,实则也不是很难,就是需要思路要打开。 一…

阿里云k8s服务部署操作一指禅

文章目录 DockerFile镜像操作阿里云k8s服务部署 DockerFile # 使用 JDK 17 官方镜像 # linux架构:FROM --platformlinux/amd64 openjdk:17-jdk-slim # arm架构:openjdk:17-jdk-slim FROM --platformlinux/amd64 openjdk:17-jdk-slim# 设置工作目录 WORK…

【算法】游艇租贷

问题 ⻓江游艇俱乐部在⻓江上设置了 n 个游艇租聘站&#xff0c;游客可以在这些租聘站租 ⽤游艇&#xff0c;然后在下游的任何⼀个租聘站归还。游艇出租站 i 到 j 的租⾦为 r(i, j)&#xff0c;1 ≤i< j≤n&#xff0c;设计⼀个算法&#xff0c;计算从出租站 i 到 j 所需的…

AnythingLLM安装包下载+CUDA安装包下载地址,提升GPU性能【语义熔炉网】

一、安装包下载地址 1. AnythingLLM安装包 &#xff08;支持Windows/macOS/Linux&#xff0c;部分用户反馈需科学上网&#xff09;国内镜像备份&#xff08;含DeepSeek相关工具&#xff09;&#xff1a;www.mix688.com/118.html 2. CUDA安装包 国内镜像&#xff08;若官网访…

【大模型】蓝耘智算平台部署DeepSeek-R1大模型使用详解

目录 一、前言 二、蓝耘智算平台介绍 2.1 蓝耘智算平台是什么 2.2 平台优势 2.3 应用场景 2.4 对DeepSeek 的支持 2.4.1 DeepSeek 简介 2.4.2 DeepSeek 优势 三、蓝耘智算平台部署DeepSeek-R1操作过程 3.1 注册账号 3.1.1 余额检查 3.2 部署DeepSeek-R1 3.2.1 获取…

本地部署deepseek-r1 ollama+anythingllm

本期笔者带给大家部署一个本地私有化知识库&#xff0c;简单明了&#xff0c;直接步入主题&#xff0c;需要读者可以继续关注支持一下啊&#xff01; 目录 背景步骤 一、环境准备二、Ollama环境部署三、AnythingLLM安装 总结 开始下载应用&#xff1a; 操作系统&#xff1a…

VSCode ssh远程连接内网服务器(不能上网的内网环境的Linux服务器)的终极解决方案

VSCode ssh远程连接内网服务器&#xff08;不能上网的内网环境的Linux服务器&#xff09; 离线下载vscode-server并安装: 如果远程端不能联网可以下载包离线安装,下载 vscode-server 的 url 需要和 vscode 客户端版本的 commit-id 对应.通过 vscode 面板的帮助->关于可以获…

计算机视觉算法实战——三维重建(主页有源码)

✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连 ✨ ✨个人主页欢迎您的访问 ✨期待您的三连✨ ​ 1. 三维重建领域简介 三维重建&#xff08;3D Reconstruction&#xff09;是计算机视觉的核心任务之一&#xff0c;旨在通过多视角图像、视频…

十、OSG学习笔记-多线程(OpenThreads)

上一节内容&#xff1a; 九、OSG学习笔记-NodeVisitor节点遍历器-CSDN博客https://blog.csdn.net/weixin_36323170/article/details/145742756?spm1001.2014.3001.5501 本章节代码&#xff1a; OsgStudy/Openthreads CuiQingCheng/OsgStudy - 码云 - 开源中国https://gite…

AI颠覆蛋白质工程:ProMEP零样本预测突变效应

概述 在生命科学的“造物革命”中&#xff0c;蛋白质工程一直面临着“试错成本”与“设计效率”的双重挑战——传统方法依赖繁复的多序列比对&#xff08;MSA&#xff09;或耗时的实验室筛选&#xff0c;如同在浩瀚的蛋白质宇宙中盲选星辰。而今日&#xff0c;一项发表于《Cel…

计算机领域里注重实战的9本书

计算机领域注重实战的书籍众多&#xff0c;以下是一些备受推崇的注重实战的计算机书籍&#xff1a; 1、Redis实战 当你需要以接近实时的速度访问快速变动的数据流时&#xff0c;Redis这样的键值数据库就是你的极好选择。通过接纳散列、字符串、列表等多种数据类型&#xff0c;…

《2024工业控制系统网络安全态势白皮书》

一、白皮书发布背景 东北大学“谛听”网络安全团队近日撰写并发布了2024年工业控制网络安全态势白皮书&#xff0c;读者可以通过报告了解2024年工控安全相关政策法规报告及典型工控安全事件分析。 二、白皮书主要内容 报告对工控系统漏洞、联网工控设备、工控蜜罐与威胁情报…

【VSCode】MicroPython环境配置

【VSCode】MicroPython环境配置 RT-Thread MicroPython 插件安装MicroPython 库文件配置结束语 RT-Thread MicroPython 插件安装 在 VSCode 拓展中搜索 “RT-Thread MicroPython” 并安装&#xff0c;详细配置步骤&#xff08;修改 VSCode 默认终端、MicroPython 代码补全&…

如何在VMware虚拟机的window10系统中安装网易mumu模拟器

安卓模拟器是可以在电脑的windows环境中运行手机软件的工具,喜欢网游或者是要逆向安卓应用应该都要安装这个模拟器,如果要模拟器正常工作,主机的虚拟化应该开启,也就是要开启vt。在有些情况下,需要把模拟器安装到电脑的虚拟机里,隔离模拟器与主机,这时vt的开启就稍麻烦些…