AB测试最小样本量

1.AB实验过程

常见的AB实验过程，分流-->实验-->数据分析-->决策：
分流：用户被随机均匀的分为不同的组
实验：同一组内的用户在实验期间使用相同的策略，不同组的用户使用相同或不同的策略。
数据收集：日志根据实验系统为用户打标记，用于记录用户行为，然后数据计算系统根据带有实验标记的体制计算用户的各种实验数据指标。
数据分析和决策：实验者去理解和分析不同的策略对用户起了什么样的作用。

2.中心极限定理

将策略推全来验证策略效果是比较危险的，因此AB实验的对象是从总体当中去抽样数据，总体的分布可能会有多种形态，如正态分布、偏态分布、严重偏态分布等，总体的数据量也有多有少。‘
AB实验是用小样本去推断整体，这就会有一个问题：抽样的样本至少多少能保证统计的科学性？

样本均值的分布，趋近于正态分布，正态分布曲线由均值和方差决定，该分布均值的均值E( ̅x)趋近于总体均值u。就算总体分布不是正态分布，依然可以通过抽样得到样本均值的分布，近似正态分布，这样就可以使用正态分布来估计置信区间，从而实现参数检验（如t检验）

3. 样本容量

当每次从总体中抽样数据时，计算均值会得到一个数，抽样同样的数据量，计算均值，也会得到一个数，两个数大概率不会一样，因此，当抽样多次，计算的均值就会形成一个分布。
当总体分布是正态分布时，样本容量n为任意数，u的抽样分布都是正态分布
当总体非正态，如指数分布、均匀分布等，样本容量n>30, $\bar{x}$ 近似为正态分布
当总体非正态，分布为严重偏态或有异常值，样本容量n>50， $\bar{x}$ 近似为正态分布

上文说的样本容量，即每个随机样本中个体的数量，用n表示，当按照样本量抽取多次的时候，才能得到正态分布，抽样的次数，叫样本量。E( $\bar{x}$ ) = u 与样本容量无关，样本标准差 $\delta _{\bar{x}}$ 和样本容量有关（总体标准差=样本标准差/ $\sqrt{n}$ ），样本容量越大，样本标准差 $\delta _{\bar{x}}$ 越小。假设样本容量=总量，那最后就成一条线。
基于均值分布，就能计算出 $\bar{x}$ 在均值u附近一定举例的概率，反之根据概率，也可以得到置信区间。

4.最小样本量

在正态分布中置信区间为 $[\bar{x} - Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}},\bar{x} + Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}]$

$\alpha$ 为显著性水平，置信水平是1- $\alpha$ ， $Z_{\frac{\alpha }{2}}$ 为标准正态概率分布上侧面积为 $\frac{\alpha }{2}$ 时的Z值， $Z_{\frac{\alpha }{2}}\frac{\sigma }{\sqrt{n}}$ 为边际误差，边际误差的含义是在统计学中，业务人员主观上可以接受的误差范围。
总体均值u，样本均值 ̅x ，两者之间的误差ε，u = $\bar{x}$ + ε