第五十三回 入云龙斗法破高廉 黑旋风下井救柴进-AI训练数据处理和读取

罗真人教了公孙胜五雷天罡正法,并让他记住“逢幽而止,遇汴而环”八个字。三人辞别了罗真人,戴宗先回去报信,李逵和公孙胜结伴而行。

走了三天,来到了武冈镇,李逵碰到一个铁匠,叫金钱豹子汤隆,李逵邀他一起上梁山。到了高唐,宋江、吴用都出寨迎接三人,李逵引荐汤隆参见宋江、吴用等头领,大家开筵席庆贺。

宋江再打高唐,高廉又用法术,公孙胜一道金光射出,就把高廉的怪兽毒虫都杀死了,高廉退回城里。

第二天四面攻城,料定晚上高廉会偷袭,四面都埋伏好。高廉带着三百神兵来偷营,公孙胜也做法,让神兵无路可走,都被杀死在营寨里,只有高廉逃了回去。

公孙胜果然法术高深,在AI人工智能领域,数据处理是容易被人忽视的重要因素。

AI训练数据处理和读取

AI数据处理

AI数据处理概述

AI数据处理是指对原始数据进行一系列的操作,以便机器学习算法能够从中提取有用的信息,进而进行模型的训练、验证和部署。数据处理是机器学习流程中的关键步骤,其质量直接影响到模型的性能。

AI数据处理的关键技术

1 数据清洗

  • 缺失值处理:填充、删除或插值。
  • 异常值检测与处理:使用统计方法、箱线图等检测异常值,并进行适当的处理。
  • 重复值处理:识别并删除重复的数据。

2 数据转换

  • 数据标准化:将数据转换为均值为0,标准差为1的分布。
  • 数据归一化:将数据缩放到指定的范围,如[0,1]。
  • 独热编码:将分类变量转换为二进制向量。

3 特征提取与选择

  • 特征提取:通过统计方法、变换等从原始数据中提取有用的特征。
  • 特征选择:选择对模型性能影响最大的特征,减少计算量,提高模型泛化能力。

4 数据分割

  • 将数据分为训练集、验证集和测试集,分别用于模型训练、模型选择和性能评估。

5 数据增强

  • 对于图像数据,可以通过旋转、平移、裁剪等方式生成新的数据,增加模型的泛化能力。
  • 对于音频数据,可以通过调整音高、速度等方式生成新的数据。

飞桨代码示例



飞桨框架在 paddle.vision.datasets 和 paddle.text 目录下内置了一些经典数据集可直接调用,通过以下代码可查看飞桨框架中的内置数据集。

import paddle
print('计算机视觉(CV)相关数据集:', paddle.vision.datasets.__all__)
print('自然语言处理(NLP)相关数据集:', paddle.text.__all__)

 输出:

计算机视觉(CV)相关数据集: ['DatasetFolder', 'ImageFolder', 'MNIST', 'FashionMNIST', 'Flowers', 'Cifar10', 'Cifar100', 'VOC2012']自然语言处理(NLP)相关数据集: ['Conll05st', 'Imdb', 'Imikolov', 'Movielens', 'UCIHousing', 'WMT14', 'WMT16', 'ViterbiDecoder', 'viterbi_decode']

以 MNIST 数据集为例,加载内置数据集的代码示例如下所示。

from paddle.vision.transforms import Normalize# 定义图像归一化处理方法,这里的CHW指图像格式需为 [C通道数,H图像高度,W图像宽度]
transform = Normalize(mean=[127.5], std=[127.5], data_format='CHW')
# 下载数据集并初始化 DataSet
train_dataset = paddle.vision.datasets.MNIST(mode='train', transform=transform)
test_dataset = paddle.vision.datasets.MNIST(mode='test', transform=transform)
print('train images: ',len(train_dataset),', test images: ',len(test_dataset))

输出:

train images:  60000 , test images:  10000

读取数据

可以使用下面的代码直接对数据集进行迭代读取。

from matplotlib import pyplot as pltfor data in train_dataset:image, label = dataprint('shape of image: ',image.shape)plt.title(str(label))plt.imshow(image[0])    break

高廉只好派人到东昌和寇州求救。被吴用將计就计,假扮有两路人马杀过来,宋江军马四处逃散,高廉大开城门杀了出去。

高廉追着宋江走,被引入小路,病尉迟孙立和美髯公朱仝截住去路,高廉驾一片黑云升空,公孙胜一声“疾”把他撞落地面,雷横一朴刀把高廉挥做两段。

宋江攻入高唐,在监牢里却没有看见柴进,被告知躲在一个深井里。李逵自告奋勇,下井救回了柴进。

高俅得知高廉被杀,奏请皇帝下旨捉拿济州梁山贼寇,皇帝就让高太尉选将调兵,前去剿捕。高俅举荐了呼延灼挂帅去征讨。呼延灼举荐了两员大将做前锋。

欲知后事如何,且听下回分解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/272001.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

启动查看工具总结

启动目标:2s内优秀,2-5s普通,之后的都需要优化,热启动则是1.5s-2s内 1 看下大致串联启动流程: App 进程在 Fork 之后,需要首先执行 bindApplication Application 的环境创建好之后,就开始activ…

去电脑维修店修电脑需要注意什么呢?装机之家晓龙

每当电脑出现故障时,你无疑会感到非常沮丧。 如果计算机已过了保修期,您将无法享受制造商的免费保修服务。 这意味着您必须自费找到一家电脑维修店。 去电脑维修店并不容易。 大家一定要知道,电脑维修非常困难,尤其是笔记本电脑维…

C#,数值计算,解微分方程的龙格-库塔四阶方法与源代码

Carl Runge Martin Wilhelm Kutta 1 龙格-库塔四阶方法 数值分析中,龙格-库塔法(Runge-Kutta)是用于模拟常微分方程的解的重要的一类隐式或显式迭代法。这些技术由数学家卡尔龙格和马丁威尔海姆库塔于1900年左右发明。 对于一阶…

Python 全栈系列232 再次搭建RabbitMQ

说明 最近想重新上RabbitMQ,主要目的还是为了分布式任务调度。在Kafka和RabbitMQ两者犹豫了一下,还是觉得RabbitMQ好一些。 在20年的时候有搞过一阵子的RabbitMQ,看了下当时的几篇文章,觉得其实想法一直没变过。 Python - 装机系列24 消息…

贪心算法(greedy algorithm,又称贪婪算法)详解(附例题)

目录 基本思想一)概念二)找出全局最优解的要求三)求解时应考虑的问题四)基本步骤五)贪心策略选择六)实际应用 1.零钱找回问题2.背包问题3.哈夫曼编码4.单源路径中的Djikstra算法5.最小生成树Prim算法 基本…

构建留学平台技术架构:从设计到实现

随着全球化进程的加速和人们对国际教育的需求不断增长,留学行业也迎来了快速发展的机遇。作为留学服务的重要组成部分,留学平台的技术架构设计至关重要。本文将探讨留学平台技术架构的设计和实现过程,以及相关的技术选择、挑战和解决方案。 …

如何在Windows系统部署Jellyfin Server并实现公网访问内网影音文件

文章目录 1. 前言2. Jellyfin服务网站搭建2.1. Jellyfin下载和安装2.2. Jellyfin网页测试 3.本地网页发布3.1 cpolar的安装和注册3.2 Cpolar云端设置3.3 Cpolar本地设置 4.公网访问测试5. 结语 1. 前言 随着移动智能设备的普及,各种各样的使用需求也被开发出来&…

746. 使用最小花费爬楼梯 (Swift版本)

题目 给你一个整数数组 cost,其中 cost[i] 是从楼梯第 i 个台阶向上爬需要支付的费用。一旦你支付此费用,即可选择向上爬一个或者两个台阶。 你可以选择从下标为 0 或下标为 1 的台阶开始爬楼梯。 请你计算并返回达到楼梯顶部的最低花费。 限制条件 2…

地址分词 | EXCEL批量进行地址分词,标准化为十一级地址

一 需求 物流需要对用户输入地址进行检查,受用户录入习惯地址可能存在多种问题。 地址标准化是基于地址引擎和地址大数据模型,自动将地址信息标准化为省、市、区市县、街镇、小区、楼栋、单元、楼层、房屋、房间等元素,补充层级缺失数据、构建…

图像处理与视觉感知---期末复习重点(2)

文章目录 一、空间域图像增强1.1 图像增强1.2 几种变换 二、直方图2.1 直方图定义2.2 直方图均衡化2.3 离散情况2.4 例子2.5 直方图匹配2.6 例子2.7 一道例题 三、空间滤波器3.1 定义3.2 例子 四、平滑空间滤波器4.1 作用与分类4.2 线性滤波器 五、统计排序滤波器5.1 定义与分类…

挑战杯 基于深度学习的视频多目标跟踪实现

文章目录 1 前言2 先上成果3 多目标跟踪的两种方法3.1 方法13.2 方法2 4 Tracking By Detecting的跟踪过程4.1 存在的问题4.2 基于轨迹预测的跟踪方式 5 训练代码6 最后 1 前言 🔥 优质竞赛项目系列,今天要分享的是 基于深度学习的视频多目标跟踪实现 …

SQL设计时增加说明列

后关闭sql Studio,然后打开注册表,注册表地址: 计算机\HKEY_CURRENT_USER\SOFTWARE\Microsoft\SQL Server Management Studio\18.0_IsoShell\DataProject 如有版本不同,红色内容有所变化,修改内容如下: SSVPropViewColumnsSQL70,SSVPropViewColumnsSQL80 全修改为 1,2,6,7…

Pinctrl子系统_04_Pinctrl子系统主要数据结构

引言 本节说明Pinctrl子系统中主要的数据结构,对这些数据结构有所了解,也就是对Pinctrl子系统有所了解了。 前面说过,要使用Pinctrl子系统,就需要去配置设备树。 以内核面向对象的思想,设备树可以分为两部分&#x…

Mint_21.3 drawing-area和goocanvas的FB笔记(五)

FreeBASIC SDL图形功能 SDL - Simple DirectMedia Layer 是完整的跨平台系统,有自己的窗口、直接捕获键盘、鼠标和游戏操纵杆的事件,直接操作音频和CDROM,在其surface上可使用gfx, openGL和direct3D绘图。Window3.0时代,各种应用…

Jenkins发送邮件、定时执行、持续部署

集成Allure报告只需要配置构建后操作即可。但如果是web自动化,或是用HTMLTestRunner生成报告,构建后操作要选择Publish HTML reports,而构建中还要添加Execute system Groovy script插件,内容: System.setProperty(&q…

如何快速分析OB集群日志,敏捷诊断工具obdiag分析能力实践——《OceanBase诊断系列》之四

1. 前言 obdiag是OceanBase的敏捷诊断工具。1.2版本中,obdiag支持快速收集诊断信息,但仅有收集能力是不够的,还需要有分析能力。因此在obdiag的1.3.0版本中,我们加入了OB集群的日志分析功能。用户可以一键进行集群的OB日志的分析…

运维知识点-Apache HTTP Server

Apache 介绍 介绍 Apache是一个开源的Web服务器软件,全称为Apache HTTP Server,由Apache软件基金会开发和维护。它是目前全球使用最广泛的Web服务器软件之一,占全球所有网络服务器的很大比例。Apache服务器具有跨平台的特性,可以…

软考高级:系统工程生命周期方法(计划驱动方法、渐进迭代式方法等)概念和例子

作者:明明如月学长, CSDN 博客专家,大厂高级 Java 工程师,《性能优化方法论》作者、《解锁大厂思维:剖析《阿里巴巴Java开发手册》》、《再学经典:《Effective Java》独家解析》专栏作者。 热门文章推荐&am…

【常见集合】Java 常见集合重点解析

Java 常见集合重点解析 1. 什么是算法时间复杂度? 时间复杂度表示了算法的 执行时间 和 数据规模 之间的增长关系; 什么是算法的空间复杂度? 表示了算法占用的额外 存储空间 与 数据规模 之间的增长关系; 常见的复杂度&#x…

防火墙配置实验

配置 配置IPSec FW1 FW3 NAT策略 FW1 FW3 安全策略 FW1 FW3 最后测试