AB测试最小样本量

1.AB实验过程

常见的AB实验过程,分流-->实验-->数据分析-->决策:
分流:用户被随机均匀的分为不同的组
实验:同一组内的用户在实验期间使用相同的策略,不同组的用户使用相同或不同的策略。
数据收集:日志根据实验系统为用户打标记,用于记录用户行为,然后数据计算系统根据带有实验标记的体制计算用户的各种实验数据指标。
数据分析和决策:实验者去理解和分析不同的策略对用户起了什么样的作用。

2.中心极限定理

将策略推全来验证策略效果是比较危险的,因此AB实验的对象是从总体当中去抽样数据,总体的分布可能会有多种形态,如正态分布、偏态分布、严重偏态分布等,总体的数据量也有多有少。‘
AB实验是用小样本去推断整体,这就会有一个问题:抽样的样本至少多少能保证统计的科学性?

样本均值的分布,趋近于正态分布,正态分布曲线由均值和方差决定,该分布均值的均值E( ̅x)趋近于总体均值u。就算总体分布不是正态分布,依然可以通过抽样得到样本均值的分布,近似正态分布,这样就可以使用正态分布来估计置信区间,从而实现参数检验(如t检验)

3. 样本容量

当每次从总体中抽样数据时,计算均值会得到一个数,抽样同样的数据量,计算均值,也会得到一个数,两个数大概率不会一样,因此,当抽样多次,计算的均值就会形成一个分布。
当总体分布是正态分布时,样本容量n为任意数,u的抽样分布都是正态分布
当总体非正态,如指数分布、均匀分布等,样本容量n>30,  \bar{x}近似为正态分布
当总体非正态,分布为严重偏态或有异常值,样本容量n>50,\bar{x}近似为正态分布

上文说的样本容量,即每个随机样本中个体的数量,用n表示,当按照样本量抽取多次的时候,才能得到正态分布,抽样的次数,叫样本量。E( \bar{x}) = u 与样本容量无关,样本标准差\delta _{\bar{x}}和样本容量有关(总体标准差=样本标准差/\sqrt{n}),样本容量越大,样本标准差\delta _{\bar{x}} 越小。假设样本容量=总量,那最后就成一条线。
基于均值分布,就能计算出 \bar{x}在均值u附近一定举例的概率,反之根据概率,也可以得到置信区间。

4.最小样本量


   在正态分布中置信区间为[\bar{x} - Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}},\bar{x} + Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}]

   \alpha为显著性水平,置信水平是1-\alphaZ_{\frac{\alpha }{2}}为标准正态概率分布上侧面积为\frac{\alpha }{2}时的Z值,Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}为边际误差,边际误差的含义是在统计学中,业务人员主观上可以接受的误差范围。
   总体均值u,样本均值 ̅x ,两者之间的误差ε,u =  \bar{x} + ε

    误差ε与边际误差存在对应关系。

    指标主要有两种:均值类和比率类,有不同的边际误差计算方法。

    均值类指标\varepsilon =Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}},计算得到n=\frac{Z_{\frac{\alpha }{2}}^2{\sigma ^2}}{\epsilon ^2}

    含义:在当前的方差水平下,要以1-\alpha的把握检测出边际误差不大于ε的变化,样本量至少需要n个。

    从公式中可以看到,当边际误差减少为原来的\frac{1}{2}时,所需的样本容量变为原来的4倍,是指数级关系。因此,在满足业务需求的情况下,尽量采用较大的边际误差,由于边际误差是业务需要检测的最低变化幅度,所以又称为最小样本量。

    对比率类指标\bar{p}的方差计算与均值有所不同,方差=\bar{p}(1-\bar{p}),所以置信区间为:

[\bar{p}-Z_{\frac{\alpha }{2}}\sqrt\frac{\bar{p} (1-\bar{p})}{n},\bar{p}+Z_{\frac{\alpha }{2}}\sqrt\frac{\bar{p} (1-\bar{p})}{n}]

方差可以使用经验值或者小样本抽取,还可以\bar{p}=0.5,这样得到的n是一个最大值,因为我们知道当\bar{p}=0.5时,\bar{p}(1-\bar{p})能取到最大。

因此解出来的n为n=\frac{Z_{\frac{\alpha }{2}}^2{\bar{p}(1-\bar{p}})}{\epsilon ^2}

  
   

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/259258.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java+Vue+MySQL,国产动漫网站全栈升级

✍✍计算机编程指导师 ⭐⭐个人介绍:自己非常喜欢研究技术问题!专业做Java、Python、微信小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。 ⛽⛽实战项目:有源码或者技术上的问题欢迎在评论区一起讨论交流! ⚡⚡ Java实战 |…

算法刷题:无重复字符的最长字串

无重复字符的最长字串 .题目链接题目详情算法原理题目解析滑动窗口定义指针进窗口判断出窗口更新结果 我的答案 . 题目链接 无重复字符的最长字串 题目详情 算法原理 题目解析 首先,为了使字符串遍历的更加方便,我们选择将字符串转换为数组 题目要求子串中不能有重复的字符…

Springboot+vue的物流管理系统(有报告)。Javaee项目,springboot vue前后端分离项目

演示视频: Springbootvue的物流管理系统(有报告)。Javaee项目,springboot vue前后端分离项目 项目介绍: 本文设计了一个基于Springbootvue的前后端分离的物流管理系统,采用M(model)…

~汉诺塔~(C语言)~

引言 汉诺塔(Hanoi Tower),又称河内塔,源于印度一个古老传说。大梵天创造世界的时候做了三根金刚石柱子,在一根柱子上从下往上按照大小顺序摞着64片黄金圆盘。大梵天命令婆罗门把圆盘从上面开始按大小顺序重新摆放在…

C++之Easyx——图形库的基本准备工作

什么是Easyx? EasyX Graphics Library 是针对 Visual C 的免费绘图库,支持 VC6.0 ~ VC2022,简单易用,学习成本极低,应用领域广泛。目前已有许多大学将 EasyX 应用在教学当中。 它比Red PandaDev C上的图形库功能要强…

BUGKU-WEB 变量1

题目描述 题目截图如下&#xff1a; 进入场景看看&#xff1a; flag In the variable !<?php error_reporting(0); include "flag1.php"; highlight_file(__file__); if(isset($_GET[args])){$args $_GET[args];if(!preg_match("/^\w$/",$args…

究极小白如何自己搭建一个自动发卡网站-独角数卡

首页 | 十画IOSID​shihuaid.cn/​编辑 如果你也是跟我一样,什么都不懂,也想要搭建一个自己的自动发卡网站,可以参考一下我的步骤,不难,主要就是细心,一步步来一定成功!! 独角数卡: 举个例子:独角数卡就是一个店面,而且里面帮你装修好了,而你要做的就是把开店之…

Netty面试题

NIO、AIO、BIO有什么区别&#xff1f; 同步阻塞的BIO、同步非阻塞的NIO、异步非阻塞的AIO。 NIO和IO有什么区别&#xff1f; IO是多线程的&#xff0c;阻塞的。NIO&#xff0c;是同步的非阻塞IO。 IO面向Stream(流)&#xff0c;而NIO面向Buffer(缓冲区)。 IO是多个线程的&…

Python学习路线图

防止忘记&#xff0c;温故知新 进阶路线

react【六】 React-Router 路由

文章目录 1、Router1.1 路由1.2 认识React-Router1.3 Link和NavLink1.4 Navigate1.5 Not Found页面配置1.6 路由的嵌套1.7 手动路由的跳转1.7.1 在函数式组件中使用hook1.7.2 在类组件中封装高阶组件 1.8 动态路由传递参数1.9 路由的配置文件以及懒加载 1、Router 1.1 路由 1.…

MySQL篇之SQL优化

一、表的设计优化 表的设计优化&#xff08;参考阿里开发手册《嵩山版》&#xff09;&#xff1a; 1. 比如设置合适的数值&#xff08;tinyint int bigint&#xff09;&#xff0c;要根据实际情况选择。 2. 比如设置合适的字符串类型&#xff08;char和varchar&#xff09…

如何在Linux系统中配置并优化硬盘的RAID

在Linux系统中配置和优化硬盘的RAID技术可以帮助提高数据存储性能和安全性。RAID&#xff08;Redundant Array of Independent Disks&#xff09;技术通过将多个硬盘组合起来&#xff0c;以增加性能、容量或冗余度&#xff0c;提高数据的可靠性和可用性。本文将介绍如何在Linux…

51_蓝桥杯_蜂鸣器与继电器

一 电路 二 蜂鸣器与继电器工作原理 2.1蜂鸣器与继电器 2.2 十六进制与二进制 二进制 0000 0001 0010 0011 0100 0101 0110 0111 1000 1001 1010 1011 1100 1101 1110 1111 十六进制 0 1 2 3 4 5 6 7 8 9 A B C D E F 2.3非门 二 代码 …

网络防御保护——防火墙综合实验

一.实验拓扑 二.实验要求 1.办公区设备可以通过电信和移动两条链路上网(多对多的nat&#xff0c;并且需要保留一个公网ip不能用来转换)。 2.分公司设备可以通过移动链路和电信链路访问到dmz区域的http服务器。 3.分公司内部客户端可以通过公网地址访问到内部服务器。 4.FW1和FW…

爬虫-华为云空间备忘录导出到docx-selenium控制浏览器行为-python数据处理

背景适用情况介绍 老的荣耀手机属于华为云系统&#xff0c;家里人换了新荣耀手机属于荣耀云系统无法通过云空间将备忘录转移到新手机&#xff0c;不想让他们一个一个搞&#xff0c;于是整了一晚上想办法爬取下来。从网页抓取下来&#xff0c;然后存到docx文档中&#xff08;包…

Stable Diffusion教程——stable diffusion基础原理详解与安装秋叶整合包进行出图测试

前言 在2022年&#xff0c;人工智能创作内容&#xff08;AIGC&#xff09;成为了AI领域的热门话题之一。在ChatGPT问世之前&#xff0c;AI绘画以其独特的创意和便捷的创作工具迅速走红&#xff0c;引起了广泛关注。随着一系列以Stable Diffusion、Midjourney、NovelAI等为代表…

分享一个学英语的网站

名字叫&#xff1a;公益大米网​​​​​​​ Freerice 这个网站是以做题的形式来记忆单词&#xff0c;题干是一个单词&#xff0c;给出4个选项&#xff0c;需要选出其中最接近题干单词的选项。 答对可以获得10粒大米&#xff0c;网站的创办者负责捐赠。如图 触发某些条件&a…

Spring AOP的实现方式

AOP基本概念 Spring框架的两大核心&#xff1a;IoC和AOP AOP&#xff1a;Aspect Oriented Programming&#xff08;面向切面编程&#xff09; AOP是一种思想&#xff0c;是对某一类事情的集中处理 面向切面编程&#xff1a;切面就是指某一类特定的问题&#xff0c;所以AOP可…

167基于matlab的根据《液体动静压轴承》编写的有回油槽径向静压轴承的程序

基于matlab的根据《液体动静压轴承》编写的有回油槽径向静压轴承的程序&#xff0c;可显示承载能力、压强、刚度及温升等图谱.程序已调通&#xff0c;可直接运行。 167 显示承载能力、压强、刚度及温升 (xiaohongshu.com)https://www.xiaohongshu.com/explore/65d212b200000000…

【监控】spring actuator源码速读

目录 1.前言 2.先搂一眼EndPoint 3.EndPoint如何被注入 4.EndPoint如何被暴露 4.1.如何通过http暴露 4.2.如何通过jmx暴露 5.EndPoint是怎么实现监控能力的 6.知道这些的意义是什么 1.前言 版本&#xff1a;spring-boot-starter-actuator 2.6.3 阅读源码一定要带着疑…