机器学习machine learning

1. 概念

机器学习是从数据中提取知识。涉及统计学和人工智能,也被称为预测分析或统计学习。

应用领域非常广泛,用户习惯预测,个性推荐,分析DNA序列等等。

机器学习优势是将决策过程自动化,需要涉及较好的算法。如果决策过程从已知示例泛化得出,这种叫监督学习(supervised learning),就是输入包括预期输出和待处理输入,算法给出输出结果。无监督学习(unsupervised learning algorithm),输入只有待处理输入。

无论监督学习还是无监督学习,将输入数据表征为计算机可以处理的形式都非常重要。例如,将数据想象成二维表格。你要处理的每一个数据点对应表格中一行记录,比如某学生,学生姓名,年龄,专业等等;用每个像素的灰度值描述肿瘤图像,或者大小、形状和颜色。

在机器学习中,每个实体或每一行称为一个样本(sample)或数据点,每一列被称为特征(feature)。如何构建良好的数据表征,被称为特征提取(feature extraction)或特征工程(feature engineering)。

2. 数据处理(机器学习)基本过程OCAI

机器学习和数据分析本质上都是迭代过程,由数据驱动分析。

对象(Objects):我想解决问题是什么?问题的对象是谁?

采集(Collectiong):收集到的数据能够回答这个问题吗?

分析(Analysis):用哪种方法分析我的问题,选择哪类机器学习算法?这些特征能否正确预测?

呈现(Interpretation):如何表述机器学习结果是有效的?对解决其它相关问题的影响?

3. 机器学习利器——Python

Python具有通用变成语言的强大功能,具有特定领域脚本语言的易用性,如Matlab或R。具有进行数据读取、统计、自然语言处理、图像处理、可视化等各种功能库。为数据科学家提供丰富的工具库。

4. 机器学习库scikit-learn

scikit-learn项目开源免费使用,包含众多机器学习算法,详细文档网址:http://scikit-learn.org/stable/documentation

4.1 安装scikit-learn

scikit-learn依赖包:NumPy和SciPy。进行绘图和交互开发,还需安装matplotlib、IPython和Jupyter Notebook,可通过pip install 的方式安装。

 pip install numpy scipy matplotlib ipython scikit-learn pandas
  • Jupyter Notebook

    浏览器运行代码的交互环境

  • NumPy

    Python科学计算基础包之一。功能包括多为数组、高级数学函数,以及伪随机数生成器。在scikit-learn中,NumPy数组是基本数据结构。scikit-leearn接受NumPy数组格式的数据。待处理的数据都必须转换成NumPy数组。NumPy的核心功能是ndarray类,即多维(n维)数组。数组的所有元素必须是同一类型。举例

import numpy as np
DataX = np.array([[3,6,9],[4,7,0]])
print("Data:\n{}".format(DataX))

结果:

x:
[[3 6 9][4 7 9]]
  • Scipy

SciPy是Python中科学计算的函数集合。具有线性代数高级程序、数学函数优化、信号处理、

特殊数学函数和统计分布等功能。scikit-learn利用SciPy函数集合实现算法。用SciPy中scipy.sparse可以给出稀疏矩阵(sparse matrice)。示例如下:

from scipy import sparse
eye = np.eye(4)
print("NumPy array:\n{}".format(eye))

结果:

NumPy array:
[[ 1. 0. 0. 0.][ 0. 1. 0. 0.][ 0. 0. 1. 0.][ 0. 0. 0. 1.]]
  • matplotlib

Python中主要科学绘图库,如折线图、直方图、散点图等。在Jupyter Notebook中,可以使用%matplotlib notebook和%matplotlib inline命令,在浏览器中现实图像。

%matplotlib inline
import matplotlib.pyplot as plt
# 在-10和10之间⽣成⼀个数列,共100个数
x = np.linspace(-10, 10, 100)
# ⽤正弦函数创建第⼆个数组
y = np.sin(x)
# plot函数绘制⼀个数组关于另⼀个数组的折线图
plt.plot(x, y, marker="x")

  • pandas

处理和分析数据的库。它基于一种叫DataFrame的数据结构,模仿R语言中DataFrame。类似于Excel表格,包含大量修改表格和操作表格的方法,可以项SQL一样对表格进行查询和连接。与NumPy要求数组中所有元素数据类型完全一致,与NumPy不同的是,pandas允许每一列数据类型不同,可以从许多文件格式和数据库中提取数据。可以利用字典创建数据集。

import pandas as pd
from IPython.display import display
# 创建关于⼈的简单数据集
data = {'Name': ["John", "Anna", "Peter", "Linda"], 'Location' : ["New York", "Paris","Berlin", "London"], 'Age' : [24, 13, 53, 33] }
data_pandas = pd.DataFrame(data)
# IPython.display可以在Jupyter Notebook中打印出“美观的”DataFrame
display(data_pandas)

注:本文内容建议使用Jupyter Notebook实现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/305808.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字化社交的引擎:解析Facebook的影响力

随着数字技术的飞速发展,社交网络已成为人们日常生活中不可或缺的一部分。而在这个数字化社交的世界中,Facebook作为最具影响力和知名度的平台之一,其所扮演的角色越发重要。本文将深入解析Facebook在数字化社交领域的影响力,并探…

Springboot实现链路追踪功能

前言 在日常开发中,一个业务的实现往往会调用很多个方法,当我们去看日志的时候,各种接口的日志打印出来,看着就头疼,压根没办法去定位,而链路追踪就能很好的帮助我们去查看接口从头至尾依次调用了哪些方法…

虚拟机中,IP地址查询失败怎么办

有时候ifconfig查出来的地址是下面这样,只有ipv6 只需要运行下面这两条命令,再次查询即可成功! systemctl stop NetworkManagersystemctl start network.service

ELK日志分析系统+Filebeat

目录 一、Filebeat介绍 1、Filebeat简介 2、Filebeat的工作方式 3、filebeat工作流程 4、Filebeat的作用 5、filebeat的用途 1.为什么要用filebeat来收集日志?为什么不直接用logstash收集日志? 2.filebeat和logstash的区别 二、部署(ELFK)Fileb…

力扣HOT100 - 240. 搜索二维矩阵 II

解题思路&#xff1a; 从左下角开始&#xff0c;根据条件删除行和列。 class Solution {public boolean searchMatrix(int[][] matrix, int target) {int row matrix.length - 1;int col matrix[0].length - 1;int l 0;while (row > 0 && l < col) {if (targ…

AI人工智能讲师简历大模型讲师叶梓大模型技术与应用培训提纲

叶梓&#xff0c;工学博士&#xff0c;高级工程师。现某大型上市企业资深技术专家。 2005年上海交通大学计算机专业博士毕业&#xff0c;在校期间的主研方向为数据挖掘、机器学习、人工智能。毕业后即进入软件行业从事信息化技术相关工作&#xff1b;负责或参与了多项国家级、省…

linux的io的知识大全

C语言的io操作 写文件 #include<stdio.h> #include<string.h>#define FILE_NAME "log.txt" int main() {FILE * fp fopen(FILE_NAME, "w");if(fpNULL){printf("fopen error!\n");}const char* msg "hello zk\n";int c…

使用 Docker 部署 Linux-Command 命令搜索工具

1&#xff09;介绍 Linux-Command GitHub&#xff1a;https://github.com/jaywcjlove/linux-command Linux-Command 仓库搜集了 580 多个 Linux 命令&#xff0c;是一个非盈利性的仓库&#xff0c;生成了一个 Web 网站方便使用&#xff0c;目前网站没有任何广告&#xff0c;内…

阿里云服务器企业租用费用价格表

阿里云服务器企业租用费用价格表&#xff0c;企业专享2核4G5M带宽云服务器优惠价格199元一年&#xff0c;配置为阿里云服务器ECS u1实例&#xff0c;2核4G、5M固定带宽、80G ESSD Entry盘&#xff0c;其他的云服务器配置2核2G3M带宽价格99元一年、4核8G服务器955元一年&#xf…

Springboot+vue的粮仓管理系统的设计与实现(有报告)。Javaee项目,springboot vue前后端分离项目。

演示视频&#xff1a; Springbootvue的粮仓管理系统的设计与实现&#xff08;有报告&#xff09;。Javaee项目&#xff0c;springboot vue前后端分离项目。 项目介绍&#xff1a; 采用M&#xff08;model&#xff09;V&#xff08;view&#xff09;C&#xff08;controller&am…

PyCharm Pro 2024:卓越的Python编辑开发工具,适用于Mac与Windows平台

PyCharm Pro 2024是一款专为Python开发者设计的强大编辑开发工具&#xff0c;无论是Mac还是Windows用户&#xff0c;都能从中受益良多。该软件凭借其出色的性能、丰富的功能和卓越的用户体验&#xff0c;成为Python编程界的翘楚。 作为一款高效的Python编辑器&#xff0c;PyCh…

ELK 企业级日志分析 ELFK

一 ELK 简介 ELK平台是一套完整的日志集中处理解决方案&#xff0c;将 ElasticSearch、Logstash 和 Kiabana 三个开源 工具配合使用&#xff0c; 完成更强大的用户对日志的查询、排序、统计需求。 1 ElasticSearch&#xff1a; 是基于Lucene&#xff08;一个全文检索引擎的…

Qt | 信号与槽 原理、连接、断开(面试无忧)

1、信号和槽是用于对象之间的通信的,这是 Qt 的核心。为此 Qt 引入了一些关键字,他们是slots、signals、emit,这些都不是 C++关键字,是 Qt 特有的,这些关键字会被 Qt 的 moc转换为标准的 C++语句。 2、Qt 的部件类中有一些已经定义好了的信号和槽,通常的作法是子类化部件…

每日一题 — 将 x 减到 0 的最小操作数

思路&#xff1a; 题目要求是让我们从数组的最左端和最右端进行操作&#xff0c;这样的话解题的难度大大提升&#xff0c;我们可以用 正难则反 的思想&#xff1a; 题目中要求是减去数组中的数刚好等于X&#xff0c;我们可以转换成 数组中某一段的和等于 数组的总长减去X(sum -…

HarmonyOS实战开发-图片编辑、使用 TextArea 实现多文本输入

介绍 本示例使用 TextArea 实现多文本输入&#xff0c;使用 ohos.app.ability.common 依赖系统的图库引用&#xff0c;实现在相册中获取图片&#xff0c;使用 ohos.multimedia.image 生成pixelMap&#xff0c;使用pixelMap的scale()&#xff0c;crop()&#xff0c;rotate()接口…

rust wasm入门

&#x1f4d5;作者简介&#xff1a; 过去日记&#xff0c;致力于Java、GoLang,Rust等多种编程语言&#xff0c;热爱技术&#xff0c;喜欢游戏的博主。 &#x1f4d8;相关专栏Rust初阶教程、go语言基础系列、spring教程等&#xff0c;大家有兴趣的可以看一看 &#x1f4d9;Jav…

连续6年!九州未来获评2024中国边缘计算企业20强

4月9日&#xff0c;由国内中立边缘计算领域研究平台——边缘计算社区策划发起的“2024中国边缘计算企业20强”榜单正式揭晓&#xff0c;九州未来凭借在边缘计算领域的深厚积累以及创新实践&#xff0c;从众多参评企业中脱颖而出&#xff0c;连续6年入选中国边缘计算企业20强&am…

vue3第十八节(diff算法)

引言&#xff1a; 上一节说了key的用途&#xff0c;而这个key属性&#xff0c;在vue的vnode 中至关重要&#xff0c;直接影响了虚拟DOM的更新机制&#xff1b; 什么场景中会用到diff算法 如&#xff1a;修改响应式属性需要重新渲染页面&#xff0c;会重新执行render渲染函数返…

智慧之旅不止步!凌恩生物3月客户文章累计IF>314.8!

2024年3月&#xff0c;凌恩生物助力客户发表文章63篇&#xff0c;累计影响因子314.8分&#xff0c;其中包括Science of the Total Environment、Journal of Hazardous Materials、Carbohydrate Polymers、Genome Biology、Chemical Engineering Journal、Bioresource Technolog…

从 SQLite 3.5.9 迁移到 3.6.0(二十一)

返回&#xff1a;SQLite—系列文章目录 上一篇&#xff1a;从 SQLite 3.4.2 迁移到 3.5.0&#xff08;二十&#xff09; 下一篇&#xff1a;SQLite—系列文章目录 ​SQLite 版本 3.6.0 &#xff08;2008-07-16&#xff09; 包含许多更改。按照惯例 SQLite项目&#xff…