数据科学统计面试问题 -40问

前 40 名数据科学统计面试问题

一、介绍

正如 Josh Wills 曾经说过的那样,“数据科学家是一个比任何程序员都更擅长统计、比任何统计学家都更擅长编程的人”。统计学是数据科学中处理数据及其分析的基本工具。它提供了工具和方法,可帮助数据科学家获得见解并解释大量数据。仅仅掌握数据科学工具和语言是不够的。您还应该对某些核心统计概念和基础知识有深刻的理解。牢记这一点,这里列出了 40 个最常见的统计数据科学面试问题和答案。它将帮助您刷新对统计学关键方面的记忆,并帮助您准备包括数据科学和机器学习在内的工作面试。

话虽如此,让我们开始吧!

二、统计面试问答

2.1 总体和样本有什么区别?

  • 总体表示正在研究的所有项目的全部。
  • 样本是总体的有限子集,被选中来代表整个组。通常选择样本是因为总体太大或成本太高,无法进行整体研究。
    在这里插入图片描述

总体和样本

人口数据的一个例子是人口普查,一个很好的样本示例是调查。

2.2 推论统计和描述性统计有什么区别?

📍描述性统计描述一些样本或总体。

📍推论统计试图从某个样本推断到更大的总体。
在这里插入图片描述

推论和描述性统计

2.3 什么是定量和定性数据?

📍定量数据是值或计数的度量,以数字表示。定量数据是指数字数据(例如数量、数量或频率)。

📍定性数据是“类型”的度量,可以用名称、符号或数字代码表示。定性数据也称为分类数据。

2.4 标准差是什么意思?

标准差是一种统计量,用于衡量数据集相对于其均值的离散度。它是数据集中变异性的平均值。平均而言,它告诉您每个值与平均值的距离。

高标准差意味着值通常与平均值相差甚远,而低标准差表示值聚类接近均值。

通过确定每个数据点相对于平均值的偏差,将标准差计算为方差的平方根。
在这里插入图片描述

标准差公式

2.5. 长格式数据和宽格式数据有什么区别?

数据集可以用两种不同的格式编写:宽和长。

📍宽格式是指每个数据点都有一行,其中包含多列来保存各种属性的值。

📍长格式是,对于每个数据点,我们的行数与属性数一样多,并且每行都包含给定数据点的特定属性的值。
在这里插入图片描述

长格式和宽格式数据

2.6 举例说明中位数比均值更好

当数据值的分布偏斜或存在明显的异常值时,中位数比平均值更能衡量集中趋势。

2.7 如何计算所需的样本量?

要计算调查或实验所需的样本数量,请执行以下操作:

  • 定义人口规模:第一件事是确定目标人群的总数。如果您要处理更大的人口,则可以在几个有根据的猜测之间近似总人口。

  • 确定误差幅度:也称为“置信区间”。边际误差表示您愿意允许样本均值和总体均值之间的差异大小。

  • 选择置信度:置信水平表示您对实际均值在所选误差范围内的确信程度。最常见的置信水平是 90%、95% 和 99%。您指定的置信度对应于 z 分数。

Z-scores for the three most common confidence levels are:
90% = 1.645
95% = 1.96
99% = 2.576

选择偏差标准:接下来,您需要确定您的偏差标准,或您希望在收集的信息中看到的方差水平。如果您不知道预期的方差有多大,0.5 的标准差通常是一个安全的选择,可以确保您的样本数量足够大。

计算样本数量:最后,您可以使用这些值来计算样本数量。您可以通过使用公式或使用在线计算器使用样本数量来执行此操作。
在这里插入图片描述

样本量的计算

  1. 统计学中的抽样类型有哪些?

统计学中的四种主要数据抽样类型是:

📍 简单随机抽样:这种方法涉及纯随机除法。每个人都有相同的概率被选为样本的一部分。
在这里插入图片描述

简单随机抽样

📍 整群抽样:这种方法涉及将整个种群划分为集群。根据性别、年龄和位置等人口统计参数确定集群并将其包含在样本中。

📍 分层抽样:这种方法涉及将总体划分为代表整个总体的唯一组。在抽样时,可以对这些组进行组织,然后分别从每个组中抽取样本。
在这里插入图片描述

整群抽样

📍 系统抽样:这种抽样方法涉及根据随机起点从较大的样本成员中选择样本成员,但具有固定的周期性间隔,称为采样间隔。抽样间隔是通过按所需样本数量对总体进行潜水来计算的。这种类型的采样方法具有预定义的范围,因此耗时最少。
在这里插入图片描述

系统抽样

2.9 什么是贝塞尔修正?

在统计学中,贝塞尔校正是在几个公式中使用 n-1 而不是 n,包括样本方差和标准差,其中 n 是样本中的观测值数。此方法纠正了总体方差估计中的偏差。它还部分纠正了总体标准差估计中的偏差,从而提供了更准确的结果。

  1. 你对正态分布一词的理解是什么?

正态分布,也称为高斯分布,是钟形频率分布曲线。正态分布中的大多数数据值倾向于围绕均值聚类。
在这里插入图片描述

正态分布

2.11 什么是常态假设?

这种正态性假设表明,如果从总体中收集许多独立的随机样本并计算一些感兴趣的值(如样本均值),然后创建直方图来可视化样本均值的分布,则应观察到正态分布。

2.12. 如何将正态分布转换为标准正态分布?

标准正态分布,也称为 z 分布,是一种特殊的正态分布,均值等于 0,标准差等于 1。

任何非标准正态分布都可以通过将每个数据值 x 转换为 z 分数来标准化。

要使用以下公式将点从正态分布转换为 z 分数:

z = (x-µ) / σ

2.13 什么是左偏分布和右偏分布?

偏度是描述分布对称性的一种方法。

📍左偏(负偏)分布是指左尾巴长于右尾巴的分布。对于此分布,均值<中位数<众数。

📍同样,右偏(正偏)分布是右尾巴比左尾巴长的分布。对于此分布,均值>中位数>模式。
在这里插入图片描述

左偏分布和右偏分布

  1. 正态分布有哪些性质?

正态分布的一些属性如下:

📍 单峰:正态分布只有一个峰。(即一种模式)

📍对称:正态分布在其中心周围是完全对称的。(即,中心的右侧是左侧的镜像)

📍均值、众数和中位数都位于中心(即都相等)

📍渐近:正态分布是连续的,尾部是渐近的。曲线接近 x 轴,但从未接触。
在这里插入图片描述

正态分布

2.15 什么是二项分布公式?

二项分布公式适用于任何随机变量 X,由下式给出;

P(x; n, p) = nCx * px (1 – p)n – xWhere:
n = the number of trials
x = 0, 1, 2, ...
p = probability of success on an individual trial
q = 1 - p = probability of failure on an individual trial

2.16 二项分布必须满足哪些标准?

二项分布必须满足的 4 个标准是:

📍有固定数量的试验。

📍每项试验的结果都是相互独立的。

📍每条线索代表两种结果(“成功”或“失败”)之一。

📍在所有试验中,“成功”p的概率是相同的。

2.17 什么是异常值?

异常值是与数据集中的其他数据点有显著差异的数据点。异常值可能是由于测量的可变性,也可能表示实验误差。

异常值会极大地影响统计分析,并扭曲任何假设检验的结果。

异常
在这里插入图片描述

仔细识别数据集中的潜在异常值并适当处理它们以获得准确的结果非常重要。

18. 提及筛选数据集中异常值的方法。

📍在使用更复杂的方法之前,检查是否需要调查某些数据点的一种简单方法是排序方法。

数据中的值可以从低到高排序,然后扫描极低或极高的值。

📍可视化(例如箱形图)是一目了然地查看数据分布和检测异常值的有用方法。此图表突出显示了统计数据信息,例如数据的最小值和最大值(范围)、中位数和四分位数范围。查看箱形图时,异常值是箱形图晶须之外的数据点。

四分位距法

📍一种常用的方法是四分位距法。如果数据集的两端值很少,但不确定其中任何一个值是否算作异常值,则此方法非常有用。
在这里插入图片描述

四分位距 (IQR) 也称为中间分布,表示数据集中半部分的范围。IQR 可用于在数据周围创建“围栏”,然后,异常值可以定义为大于上围栏或小于下围栏的任何值。

要使用 IQR 方法,请执行以下操作:

Sort the data from low to high
Identify the first quartile (Q1), the median, and the third quartile (Q3).
Calculate the IQR; IQR = Q3 – Q1
Calculate the upper fence; Q3 + (1.5 * IQR) and the lower fence; Q1 – (1.5 * IQR)
Use the fences to highlight any outliers (all values that fall outside your fences).
📍识别异常值的另一种方法是使用 Z 分数。Z 分数就是与某个数据点的平均值相差多少个标准差。要计算 z 分数,请使用公式 z = (x-μ) / σ

如果 z 分数为正,则数据点高于平均水平。
如果 z 分数为负,则数据点低于平均水平。
如果 z 分数接近于零,则数据点接近平均值。
如果 z 分数高于或低于 3(假设 z 分数 = 3 被视为设置限制的截止值),则该值为异常值,数据点被视为异常值。
筛选异常值的其他方法包括隔离林和 DBScan 聚类。

19. 采样时会遇到哪些类型的偏差?

在调查或调查期间,当样本不能代表目标人群时,就会发生抽样偏差。采样时可能遇到的三个主要问题是:

📍选择偏倚:它涉及以非随机的方式选择单个或分组数据。

📍覆盖不足偏倚:当某些总体成员在样本中的代表性不足时,就会发生这种类型的偏差。

📍当样本专注于“幸存的”或现有的观察结果而忽略那些已经不复存在的观察结果时,就会发生幸存者偏差。这可能会以多种不同的方式导致错误的结论。

  1. 内联是什么意思?

inlier 是位于其他观测值的一般分布范围内但属于误差的数据值。内值很难与良好的数据值区分开来,因此,有时很难找到和纠正它们。

inlier 的一个示例可能是以错误单位记录的值。

  1. 什么是假设检验?

假设检验是一种统计推断,它使用样本中的数据来得出总体数据的结论。

在执行测试之前,需要对总体参数进行假设。此假设称为原假设,用 H0 表示。然后定义一个备择假设(表示为 Ha),它与原假设在逻辑上相反。

假设检验过程涉及使用样本数据来确定是否应拒绝 H0。对备择假设 (Ha) 的接受是在对原假设 (H0) 的拒绝之后进行的。

22. 假设检验中的 p 值是多少?

p 值是一个数字,用于描述当原假设 (H0) 为 True 时找到观察到的结果或更极端结果的概率。

P 值用于假设检验,以帮助决定是否拒绝原假设。p 值越小,应否定原假设的证据就越强。

23. 什么时候应该使用 t 检验与 z 检验?

📍T 检验询问两组均值之间的差异是否由于随机机会而不太可能发生。它通常用于处理样本量有限的问题 (n < 30)。

如果总体标准差已知,则样本数量小于或等于 30,或者如果总体标准差未知,则使用 T 检验。

📍另一方面,Z 检验将样本与定义的总体进行比较,通常用于处理与大样本相关的问题(即 n > 30)。

通常,当总体的标准差已知且样本数量超过 30 时,应使用 Z 检验。

24. 单尾假设检验和双尾假设检验有什么区别?

📍单尾测试允许在一个方向上产生影响的可能性。在这里,临界区域只位于一条尾巴上。
在这里插入图片描述

单尾假设检验

📍双尾检验测试在两个方向(正和负)上产生影响的可能性。在这里,临界区域是两条尾巴之一。
在这里插入图片描述

双尾假设检验

25. I 类错误与 II 类错误有什么区别?

📍当总体中的原假设为真被拒绝时,将发生 I 类错误。它也被称为假阳性。

📍当总体中为假的原假设未能被拒绝时,就会发生 II 类错误。它也被称为假阴性。
在这里插入图片描述

原假设

26. 什么是中心极限定理?

中心极限定理 (CLT) 指出,给定来自具有有限方差水平的总体的足够大的样本量,无论总体是否呈正态分布,均值的抽样分布都将是正态分布的。
在这里插入图片描述

中心极限定理

27.中心极限定理必须满足哪些一般条件才能成立?

中心极限定理指出,在以下条件下,均值的抽样分布将始终服从正态分布:

📍样本量足够大(即样本量为 n ≥ 30)。

📍样本是独立且分布相同的随机变量。

📍总体的分布具有有限方差。

28. 什么是统计学中的相关性和协方差?

📍相关性表示两个变量的相关性。两个变量之间的相关性值范围为 -1 到 +1。

-1 值表示高负相关,即如果一个变量中的值增加,则另一个变量中的值将减少。同样,+1 表示正相关,即一个变量的增加会导致另一个变量的增加。

而 0 表示没有相关性。
在这里插入图片描述

统计学中的相关性

📍另一方面,协方差是一种度量,用于指示一对随机变量相互变化的程度。数字越大表示依赖性越高。
在这里插入图片描述

统计学中的协方差

29. 点估计值和置信区间估计值有什么区别?

📍点估计值将单个值作为总体参数的估计值。例如,样本标准差是总体标准差的点估计值。

📍置信区间估计值给出了可能包含总体参数的值范围。它是最常见的区间估计类型,因为它告诉我们该区间包含总体参数的可能性。
在这里插入图片描述

点估计值和置信区间估计值

30. 提及标准误差和误差幅度之间的关系?

随着标准误差的增加,误差范围也会增加。

可以使用以下公式的标准误差来计算边际误差:

边际误差 = 临界值 * 样品的标准误差

31. 您如何定义峰度?

峰度是分布尾部值与分布中心不同的程度。

使用峰度在数据分布中检测异常值。峰度越高,数据中的异常值数就越多。

32. 不包含总体参数的置信区间比例是多少?

Alpha (α) 是置信区间中不包含总体参数的部分。

α = 1 – CL = 置信区间不包括总体参数的概率。

1 – α = CL = 总体参数在区间内的概率

例如,如果置信水平 (CL) 为 95%,则 α = 1 – 0.95,或 α = 0.05。

33. 统计学中的大数定律是什么?

根据统计中的大数定律,所进行的试验次数的增加将导致结果平均值的正比例增加,成为期望值。

例如,与掷转 0.5 次相比,掷出 100, 000 次时抛出一枚公平硬币并落地的概率接近 50。

34. A/B测试的目标是什么?

A/B 检验是统计假设检验。它是一种分析方法,用于根据样本统计量做出估计总体参数的决策。

目标通常是识别对网页的任何更改,以最大化或增加感兴趣的结果。A/B 测试是为您的企业找出最佳在线促销和营销策略的绝佳方法。

35. 您对敏感性和特异性的理解是什么?

📍灵敏度是衡量被预测为阳性(或真阳性)的实际阳性病例比例的指标。

📍特异性是衡量被预测为阴性(或真阴性)的实际阴性病例比例的指标。

灵敏度和特异性的计算非常简单;
在这里插入图片描述

敏感性和特异性

36. 什么是重采样,重采样的常用方法有哪些?

重抽样涉及从原始数据样本中随机选择替换案例,使抽取的每个样本数量都有几个与原始数据样本相似的案例。

重采样的两种常用方法是:

引导和正常重采样
交叉验证

37. 什么是线性回归?

在统计学中,线性回归是一种对一个或多个预测变量 (X) 和一个结果变量 (y) 之间的关系进行建模的方法。

如果存在一个预测变量,则称为简单线性回归。如果存在多个预测变量,则称为多元线性回归。
在这里插入图片描述

线性回归

38. 线性回归需要哪些假设?

线性回归有四个关键假设:

📍 线性关系:X 和 Y 的平均值之间存在线性关系。

📍 独立:观测值是相互独立的。

📍 常态:Y 沿 X 的分布应为正态分布。

📍 同方差性:对于任何 X 值,结果或响应变量的变化都是相同的。

39. 什么是ROC曲线?

受试者操作员特征 (ROC) 曲线是分类模型在各种阈值下的性能的图形表示。

该曲线绘制了不同分类阈值下的真阳性率 (TPR) 与假阳性率 (FPR)。
在这里插入图片描述

ROC曲线

40. 什么是成本函数?

成本函数是衡量给定数据集的机器学习模型性能的重要参数。

它衡量模型在估计输入和输出参数之间关系时的错误程度。

三、结论

本文讨论了为什么数据科学家应该掌握统计学以及一些重要且经常被问到的统计数据科学面试问题和答案。

综上所述,以下是本文的主要内容:

我们了解了抽样、不同类型的抽样以及如何计算所需的样本量。
我们介绍了集中趋势和概率分布。
我们讨论了变量之间的关系以及协方差和相关性之间的区别。
我们介绍了假设检验和 P 值,并讨论了何时使用 T 检验和 Z 检验。
我们讨论了回归和线性回归的假设。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/385500.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

初涉JVM

JVM 字节码、类的生命周期、内存区域、垃圾回收 JVM主要功能&#xff1a; 解释运行&#xff08;翻译字节码&#xff09;内存管理&#xff08;GC&#xff09;即使编译&#xff08;Just - In - Time&#xff0c; JIT&#xff09; 将短时间内常使用到的字节码翻译成机器码存储在内…

【Gin】智慧架构的巧妙砌筑:Gin框架中控制反转与依赖注入模式的精华解析与应用实战(下)

【Gin】智慧架构的巧妙砌筑&#xff1a;Gin框架中控制反转与依赖注入模式的精华解析与应用实战(下) 大家好 我是寸铁&#x1f44a; 【Gin】智慧架构的巧妙砌筑&#xff1a;Gin框架中控制反转与依赖注入模式的精华解析与应用实战(下)✨ 喜欢的小伙伴可以点点关注 &#x1f49d; …

uboot的mmc partconf命令

文章目录 命令格式参数解释具体命令解释总结 mmc partconf 是一个用于配置 MMC (MultiMediaCard) 分区的 U-Boot 命令。具体来说&#xff0c;这个命令允许你设置或读取 MMC 卡的分区配置参数。让我们详细解释一下 mmc partconf 0 0 1 0 命令的含义。 命令格式 mmc partconf &…

【网络安全】子域名模糊测试实现RCE

未经许可&#xff0c;不得转载。 文章目录 正文总结 正文 在之前测试一个私人项目时&#xff0c;我报告了admin.Target.com上的Auth Bypass漏洞&#xff0c;这将导致SQLI&RCE &#xff0c;该漏洞在报告后仅一天就被修复。 现在重拾该应用程序&#xff0c;对子域进行模糊测…

探索 Blockly:自定义积木实例

3.实例 3.1.基础块 无输入 , 无输出 3.1.1.json var textOneJson {"type": "sql_test_text_one","message0": " one ","colour": 30,"tooltip": 无输入 , 无输出 };javascriptGenerator.forBlock[sql_test_te…

c语言第四天笔记

关于 混合操作&#xff0c;不同计算结果推理 第一种编译结果&#xff1a; int i 5; int sum (i) (i) 6 7 13 第二种编译结果&#xff1a; int i 5; int sum (i) (i) 6 7 7 7 前面的7是因为后面i的变化被影响后&#xff0c;重新赋值 14 第一种编译结果&#xff…

后端解决跨域(Cross-Origin Resource Sharing)(三种方式)

注解CrossOrigin 控制层的类上或者方法上加注解CrossOrigin 实现接口并重写方法 Configuration public class CorsConfig implements WebMvcConfigurer {Overridepublic void addCorsMappings(CorsRegistry registry) {// 设置允许跨域的路径registry.addMapping("/**&qu…

springboot配置文件如何读取pom.xml的值

比如想读取profile.active的值&#xff0c;默认属性为pro 在maven中加入以下插件&#xff1a; <plugin><groupId>org.apache.maven.plugins</groupId><artifactId>maven-resources-plugin</artifactId><version>3.2.0</version>&l…

Servlet详解(超详细)

Servlet详解 文章目录 Servlet详解一、基本概念二、Servlet的使用1、创建Servlet类2、配置Servleta. 使用web.xml配置b. 使用注解配置 3、部署Web应用4、处理HTTP请求和生成响应5、处理表单数据HTML表单Servlet 6、管理会话 三、servlet生命周期1、加载和实例化2、初始化3、 请…

pinia安装及简介

pinia简介 基本特点 轻量级&#xff1a;Pinia相比于传统的Vuex&#xff0c;体积更小&#xff0c;性能更好&#xff0c;只有大约1KB左右。 简化API&#xff1a;Pinia简化了状态管理库的使用方法&#xff0c;抛弃了Vuex中的mutations&#xff0c;只保留了state、getters和actions…

科普文:docker基础概念、软件安装和常用命令

docker基本概念 一 容器的概念 1. 什么是容器&#xff1a;容器是在隔离的环境里面运行的一个进程&#xff0c;这个隔离的环境有自己的系统目录文件&#xff0c;有自己的ip地址&#xff0c;主机名等。也可以说&#xff1a;容器是一种轻量级虚拟化的技术。 2. 容器相对于kvm虚…

基于Golang+Vue3快速搭建的博客系统

WANLI 博客系统 项目介绍 基于vue3和gin框架开发的前后端分离个人博客系统&#xff0c;包含md格式的文本编辑展示&#xff0c;点赞评论收藏&#xff0c;新闻热点&#xff0c;匿名聊天室&#xff0c;文章搜索等功能。 项目在线访问&#xff1a;http://bloggo.chat/ 访客账号…

SMU Summer 2024 Contest Round 7

Bouquet 思路&#xff1a; 总的方案数就是C(n,1)C(n,2) . . . . C(n,n) &#xff1b;然后不符合的方案数为C(n,a)C(n,b); 两者相减就是答案&#xff1b;因为算组合数时&#xff0c;数据非常大&#xff0c;所以要用到lucas定理来计算组合数的大小&#xff1b; 当同余定理用…

C#使用Clipper2进行多边形合并、相交、相减、异或的示例

Clipper2库介绍 开源库介绍&#xff1a; Clipper2在Github上的地址&#xff1a;https://github.com/AngusJohnson/Clipper2 Clipper2库对简单和复杂多边形执行交集&#xff08;Intersection&#xff09;、并集&#xff08;Union&#xff09;、差分&#xff08;Difference&…

Python安装

download 1、下载 后直接安装 2、cmd运行命令 python

kafka详解及应用场景介绍

Kafka架构 Kafka架构&#xff0c;由多个组件组成&#xff0c;如下图所示&#xff1a; 主要会包含&#xff1a;Topic、生产者、消费者、消费组等组件。 服务代理&#xff08;Broker&#xff09; Broker是Kafka集群中的一个节点&#xff0c;每个节点都是一个独立的Kafka服务器…

Oracle集群RAC磁盘管理命令asmcmd的使用

文章目录 ASM磁盘共享简介ASM磁盘共享的优势ASM磁盘组成ASM磁盘共享的应用场景Asmcmd简介Asmcmd的功能Asmcmd的命令Asmcmd的使用注意事项Asmcmd运行模式交互模式运行非交互模式运行ASMCMD命令分类实例管理命令:文件管理命令:磁盘组管理命令:模板管理命令:文件访问管理命令:…

Linuxnat网络配置

&#x1f4d1;打牌 &#xff1a; da pai ge的个人主页 &#x1f324;️个人专栏 &#xff1a; da pai ge的博客专栏 ☁️宝剑锋从磨砺出&#xff0c;梅花香自苦寒来 ☁️运维工程师的职责&#xff1a;监…

通信协议_C#实现CAN通信

CAN协议 CAN&#xff08;Controller Area Network&#xff09;即控制器局域网络。特点&#xff1a; 多主网络&#xff1a;网络上的任何节点都可以主动发送数据&#xff0c;不需要一个固定的主节点。双绞线&#xff1a;使用双绞线作为通信介质&#xff0c;支持较远的通信距离。…

用户登录安全是如何保证的?如何保证用户账号、密码安全?

1.HTTP协议直接传输密码&#xff08;无加密&#xff09; 前端 直接发送HTTP请求&#xff08;无加密&#xff09;&#xff0c;攻击者可直接捕获网络包&#xff0c;看到下面的明文信息 因此&#xff0c;使用HTTP协议传输会直接暴露用户敏感信息。 2.HTTPS协议直接传输密码&…