(十七)如何学习统计学基础知识(学习路线)

统计学是数据科学的基本支柱。统计学的目的是帮助你理解数据并从中得出有意义的结论。在数据科学中,统计学在理解数据模式和趋势、做出预测和检验假设方面起着至关重要的作用。

(一) 数据科学统计学习路线图

本文为学习统计学并将其应用于数据科学提供了清晰、结构化的路径。

1)从描述性统计开始

首先学习描述性统计的基础知识,包括平均值、中位数、众数和标准差等指标,以及直方图、条形图和散点图等图表。这将为理解更高级的主题奠定基础。

2)学习概率

概率是统计学的重要组成部分,了解概率可以帮助您理解更复杂的概念。掌握概率分布的基本知识,包括正态分布、二项分布和泊松分布。

3)学习推论统计

学习描述统计和概率后,继续学习推论统计。从假设检验开始,包括 t 检验和方差分析,然后学习回归分析,包括简单线性回归和多元回归。

4)学习高级主题

接下来,探索统计学中的高级主题,包括机器学习、贝叶斯统计和时间序列分析。

5)使用真实数据进行练习

为了更深入地了解统计数据,使用真实数据进行练习非常重要。你可以在网上找到公开可用的数据集。

6)保持最新状态

统计学是一个快速发展的领域,了解最新技术和发展非常重要。你可以通过参加会议、阅读学术期刊和参与在线论坛来做到这一点。

(二) 概率论

概率论为做出预测和理解与这些预测相关的不确定性提供了框架。以下是与数据科学相关的一些重要概率概念:

1)随机变量

随机变量是可以随机取不同值的变量。在数据科学中,它用于模拟事件的不确定结果。随机变量有两种类型:离散变量和连续变量。

2)概率分布

概率分布是描述随机变量所有可能结果的概率的函数。概率分布有多种类型,包括正态分布、泊松分布和伯努利分布。

3)贝叶斯定理

贝叶斯定理是概率论中的一个基本概念,它描述了如何根据新证据更新我们对假设的信念。在数据科学中,它用于更新对模型参数的信念,根据新数据进行预测,并了解与这些预测相关的不确定性。

4)条件概率

条件概率是假设另一事件发生时某事件发生的概率。在数据科学的背景下,它用于对变量之间的关系进行建模,根据新数据进行预测,并了解与这些预测相关的不确定性。

5)最大似然估计(MLE)

MLE 用于估计统计模型的参数,如回归模型、分类模型和其他统计模型。

6)假设检验

假设检验是一种基于样本数据检验总体参数主张的统计方法。它用于检验模型参数主张、比较模型和验证预测。

这些只是与数据科学相关的一些重要概率概念。 更好地理解它们的最佳方法是深入研究它们并练习将它们应用于现实世界的数据。

(三) 集合论

集合论是数理逻辑的一个分支,为数学、计算机科学和数据科学中的许多概念提供了基础。以下是一些重要的概念:

1)集合

集合是一组称为元素的对象的集合,这些元素被视为单个实体。它可以是有限的,也可以是无限的,并且可以包含任何类型的元素,包括数字、字符串和其他集合。

2)集合运算

集合运算(例如并集、交集和补集)用于组合或操作集合。它们用于操作数据,例如根据某些标准组合或排除观察结果。

3)维恩图

维恩图是集合及其关系的图形表示。它们用于直观地表示数据关系并帮助识别模式或趋势。

4)笛卡尔积

两个集合的笛卡尔积是所有有序对 (a, b) 的集合,其中 a 是其中一个集合的元素,b 是另一个集合的元素。在数据科学中,笛卡尔积用于通过组合来自多个来源的数据来创建新的数据集。

5)幂集

集合的幂集是该集合的所有子集的集合,包括空集和集合本身。它用于生成所有可能的数据组合,并用于组合优化问题。

6)分区

集合的分区是将集合划分为不相交的子集,这些子集共同构成集合。它用于将数据划分为子集以供进一步分析,例如创建分层样本以进行假设检验。

(四) 描述性统计

统计学有两个主要分支:描述统计学和推断统计学。描述统计学涉及总结和描述数据,而推断统计学涉及根据数据进行预测和得出结论。在数据科学中,这两个分支都很重要。

描述性统计提供了一种总结和描述大型复杂数据集的方法。它在以下方面发挥着关键作用:

1)数据探索

描述性统计提供了一种快速简便的方法来探索和总结大型数据集。例如,平均值、中位数和众数等指标提供了可用于描述数据集集中趋势的汇总统计数据。此外,直方图、箱线图和散点图等图表可以直观地表示数据,可用于识别数据中的模式和关系。

2)数据清理

描述性统计数据还可用于识别异常值、缺失值和其他需要在进行进一步分析之前解决的数据问题。通过使用最小值、最大值和四分位数等指标,数据科学家可以快速识别超出正常范围的数据点并采取适当的措施。

3)数据呈现

描述性统计是一种以清晰简洁的方式呈现数据的强大工具。通过使用平均值和标准差等指标来汇总数据,数据科学家可以以其他人容易理解的方式传达复杂的数据。直方图、条形图和折线图等图表也可用于以引人入胜且易于理解的方式直观地表示数据。

4)数据分析

描述性统计为更高级的数据分析方法提供了基础。例如,相关性和协方差可用于识别变量之间的关系。同时,假设检验可用于根据样本数据对总体进行推断。

(五) 推断性统计

推断性统计提供了一种基于样本数据对总体进行概括的方法。它是进行假设检验、模型构建、估计和决策的强大工具。

1)假设检验

推论统计学提供了基于样本数据检验有关总体假设的方法。例如,假设检验可用于确定两组的平均值之间是否存在显著差异,或者两个变量之间是否存在关系。

2)模型构建

推论统计学提供了构建模型的方法,可用于根据样本数据对总体进行预测或推断。例如,对因变量和一个或多个自变量之间的关系进行建模。同时,决策树和随机森林等机器学习算法可用于根据大型复杂数据集进行预测。

3)估计

推论统计能够根据样本数据估计总体参数。例如,置信区间可用于估计可能包含真实总体参数的数值范围,而点估计则提供总体参数的单一数值估计。

4)决策

推论统计还提供了基于样本数据做出明智决策的工具。例如,统计显著性检验可用于确定变量之间的关系是真实的还是偶然的,而成本效益分析可用于根据预期成本和收益确定最佳决策。

 

统计学是数据科学的重要组成部分,掌握基础知识至关重要。学习统计学的方法有很多,包括在线课程、处理真实数据和探索 EDA。请记住,学习统计学需要时间和练习,但只要有奉献精神以及正确的资源和支持,你就能成为一名成功的数据科学家。

以上为全部内容,下期再见,bye!

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/365999.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Golang-map理解

golang-map语雀笔记整理 map的底层实现hmapbmap map是如何做到O(1)的复杂度的?map扩容策略 师兄问题回答 map的底层实现 hmap hmap的结构体核心字段有:buckets 桶数组地址, B 定位值,桶的数目是2^B个, count 当前map的…

一个 API 客户端和一份 TS 学习手册

第75期: Insomnia:超好看的 API 客户端 项目介绍: 一款适用于 GraphQL、REST、WebSockets 和 gRPC 的开源 API 客户端,颜值超高。 跨平台,支持 Mac、Windows 和 Linux。但不支持网页版,需要下载客户端。…

【AI编译器】triton学习:矩阵乘优化

Matrix Multiplication 主要内容: 块级矩阵乘法 多维指针算术 重新编排程序以提升L2缓存命 自动性能调整 Motivations 矩阵乘法是当今高性能计算系统的一个关键组件,在大多数情况下被用于构建硬件。由于该操作特别复杂,因此通常由软件提…

【论文复现|智能算法改进】基于自适应动态鲸鱼优化算法的路径规划研究

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 SCI二区|鲸鱼优化算法(WOA)原理及实现【附完整Matlab代码】 2.改进点 非线性收敛因子 WOA 主要通过控制系数向量 A 来决定鲸鱼是搜索猎物还是捕获猎物,即系数向量 A 可…

七月论文审稿GPT第5版:拿我司七月的早期paper-7方面review数据集微调LLama 3

前言 llama 3出来后,为了通过paper-review的数据集微调3,有以下各种方式 不用任何框架 工具 技术,直接微调原生的llama 3,毕竟也有8k长度了 效果不期望有多高,纯作为baseline通过PI,把llama 3的8K长度扩展…

应用案例 | 如何监测高价值货物在物流运输过程中受到的振动和冲击?全面保障货物安全

一、货物运输 不同种类的货物对运输的要求不同,钢铁、煤炭、矿石等大宗物资通常对运输要求较低,而电子产品、IT 产品、家电等高价值敏感类货物则更强调运输的安全性和时效性,往往希望能尽可能安全和快速送达这类货物,使之尽快进入…

SpringBoot:SpringBoot中调用失败如何重试

一、引言 在实际的应用中,我们经常需要调用第三方API来获取数据或执行某些操作。然而,由于网络不稳定、第三方服务异常等原因,API调用可能会失败。为了提高系统的稳定性和可靠性,我们通常会考虑实现重试机制。 Spring Retry为Spri…

Django 一对多关系

1,创建 Django 应用 Test/app9 django-admin startapp app9 2,注册应用 Test/Test/settings.py 3,添加应用路由 Test/Test/urls.py from django.contrib import admin from django.urls import path, includeurlpatterns [path(admin/,…

uniApp获取实时定位

通过你获取的key放到项目manifest.json里面&#xff0c;对应填写你所需要的key值&#xff0c;还有高德用户名 用户名&#xff1a; key值的位置&#xff1a; 代码&#xff1a; html: <view class"intList pdNone"><view class"label">详细地…

使用 nvm 管理 Node 版本及 pnpm 安装

文章目录 GithubWindows 环境Mac/Linux 使用脚本进行安装或更新Mac/Linux 环境变量nvm 常用命令npm 常用命令npm 安装 pnpmNode 历史版本 Github https://github.com/nvm-sh/nvm Windows 环境 https://nvm.uihtm.com/nvm.html Mac/Linux 使用脚本进行安装或更新 curl -o- …

AI大模型日报#0701:Meta发布LLM Compiler、扒一扒Sora两带头人博士论文

导读&#xff1a;AI大模型日报&#xff0c;爬虫LLM自动生成&#xff0c;一文览尽每日AI大模型要点资讯&#xff01;目前采用“文心一言”&#xff08;ERNIE-4.0-8K-latest&#xff09;生成了今日要点以及每条资讯的摘要。欢迎阅读&#xff01;《AI大模型日报》今日要点&#xf…

Kotlin/Android中执行HTTP请求

如何在Kotlin/Android中执行简单的HTTP请求 okhttp官网 okhttp3 github地址 打开build.gradle.kts文件加入依赖 dependencies {implementation("com.squareup.okhttp3:okhttp:4.9.0") }在IDEA的Gradle面板点击reload按钮便会自动下载jar

【STM32】温湿度采集与OLED显示

一、任务要求 1. 学习I2C总线通信协议&#xff0c;使用STM32F103完成基于I2C协议的AHT20温湿度传感器的数据采集&#xff0c;并将采集的温度-湿度值通过串口输出。 任务要求&#xff1a; 1&#xff09;解释什么是“软件I2C”和“硬件I2C”&#xff1f;&#xff08;阅读野火配…

HTTPS是什么?原理是什么?用公钥加密为什么不能用公钥解密?

HTTPS&#xff08;HyperText Transfer Protocol Secure&#xff09;是HTTP的安全版本&#xff0c;它通过在HTTP协议之上加入SSL/TLS协议来实现数据加密传输&#xff0c;确保数据在客户端和服务器之间的传输过程中不会被窃取或篡改。 HTTPS 的工作原理 客户端发起HTTPS请求&…

C++进阶 | [4.3] 红黑树

摘要&#xff1a;什么是红黑树&#xff0c;模拟实现红黑树 红黑树 &#xff0c;是一种 二叉搜索树 &#xff0c;但 在每个结点上增加一个存储位表示结点的颜色&#xff0c;可以是 Red 或 Black 。 通过对 任何一条从根到叶子的路径上各个结点着色方式的限制&#xff0c;红黑树…

【RT摩拳擦掌】基于RT106L/S语音识别的百度云控制系统

【RT摩拳擦掌】基于RT106L/S语音识别的百度云控制系统 一 文档简介二 平台构建2.1 使用平台2.2 百度智能云2.2.1 物联网核心套件2.2.2 在线语音合成 2.3 playback语音数据准备与烧录2.4 开机语音准备与添加2.5 唤醒词识别词命令准备与添加 三 代码准备3.1 sln-local/2-iot 代码…

cube-studio开源一站式机器学习平台,在线ide,jupyter,vscode,matlab,rstudio,ssh远程连接,tensorboard

全栈工程师开发手册 &#xff08;作者&#xff1a;栾鹏&#xff09; 一站式云原生机器学习平台 前言 开源地址&#xff1a;https://github.com/tencentmusic/cube-studio cube studio 腾讯开源的国内最热门的一站式机器学习mlops/大模型训练平台&#xff0c;支持多租户&…

什么是原始权益人?

摘要&#xff1a;每天学习一点金融小知识 原始权益人&#xff0c;在资产证券化&#xff08;ABS&#xff09;和公募REITs等金融产品中&#xff0c;指的是证券化基础资产的原始所有者&#xff0c;即金融产品的真正融资方。他们是按照相关规定及约定向资产支持专项计划转移其合法拥…

Mysql面试合集

概念 是一个开源的关系型数据库。 数据库事务及其特性 事务&#xff1a;是一系列的数据库操作&#xff0c;是数据库应用的基本逻辑单位。 事务特性&#xff1a; &#xff08;1&#xff09;原子性&#xff1a;即不可分割性&#xff0c;事务要么全部被执行&#xff0c;要么就…

基于决策树的旋转机械故障诊断(Python)

前置文章&#xff1a; 将一维机械振动信号构造为训练集和测试集&#xff08;Python&#xff09; https://mp.weixin.qq.com/s/DTKjBo6_WAQ7bUPZEdB1TA 旋转机械振动信号特征提取&#xff08;Python&#xff09; https://mp.weixin.qq.com/s/VwvzTzE-pacxqb9rs8hEVw import…