箱线图(箱型图)的主要作用是发现数据内部整体的分布分散情况,包括最小最大值、各分位数、中位数、异常值。
boxplot(x) creates a box plot of the data in x. If x is a vector, boxplot plots one box. If x is a matrix, boxplot plots one box for each column of x.
boxplot(x) 创建 x 中数据的箱线图。 如果 x 是向量,则箱线图绘制一个框。 如果 x 是一个矩阵,boxplot 为 x 的每一列绘制一个框。
定义:
第一四分位数 (Q1),又称“较小四分位数”(下四分位),等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数 (Q3),又称“较大四分位数”(上四分位),等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限,在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值。其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。matlab中boxplot(x)图中不画出内外限。
如何计算中位数、上四分位和下四分位
>> x2 = [1 2 3 4]
>> boxplot(x2')
中位数:(2+3)÷2=2.5
>> x2 = [1;2;3;4]
>> boxplot(x2)
>> x2 = [1 2 3 4 40]
>> boxplot(x2')
中位数 3
上四分位13: 4 13 40 40-4=36 36÷4=9 4+9=13 ,上四分位13大于最大值4,matlab图中不画出最大值。
下四分位1.75 : 1 1.75 2 2-1=1 1÷4=0.25 2-0.25=1.75
如何计算上限、下限、异常值
>> x1 = [12 12 11 8 15 17 24];
>> boxplot(x1')
上限为16.5+1.5×(16.5-11.25)=24.375
其中24小于上限,箱型图如下图。24不属于异常值。
>> x1 = [12 12 11 8 15 17 25];
>> boxplot(x1')
其中25大于上限,箱型图如下图。25属于异常值。